本帖最后由 xandy 于 2018-4-23 17:23 编辑

压缩中包含的数据为:
  • 知网微博数据挖掘研究分析-“论文主题”字段数据


知网微博数据挖掘研究分析-论文主题数据.zip

161.3 KB, 阅读权限: 1, 下载次数: 8266

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-4-24 09:39

沙发
lixueyun 新手上路 发表于 2019-1-9 12:31:09 | 只看该作者
怎么下载啊
举报 使用道具
板凳
Fuller 管理员 发表于 2019-1-9 12:35:08 | 只看该作者

想下载什么内容?
举报 使用道具
地板
lixueyun 新手上路 发表于 2019-1-9 18:21:23 | 只看该作者
Fuller 发表于 2019-1-9 12:35
想下载什么内容?

请教一下 有分词系列的教程吗

举报 使用道具
5#
Fuller 管理员 发表于 2019-1-9 19:58:29 | 只看该作者
lixueyun 发表于 2019-1-9 18:21
请教一下 有分词系列的教程吗

集搜客的分词工具在这里:https://www.gooseeker.com/res/softdetail_13.html
这个网页上有介绍,很容易使用,不用看教程。
分词工具分词过程是自动的,只要导入文件就启动分词。分完词,需要你手工选择用于分析的特征词,相当于划定一个分析范围。如果不选特征词也行,相当于要分析所有词。但是在量化计算的时候,没有必要使用所有词,因为很多词是没有意义的,而且很多软件也算不了那么多词,通常选择200多个就够了,按照词频的排序,把前200个有意义的词选出来,就能导出一个词矩阵,每一条内容对应哪几个词,就在这个矩阵中。

提到矩阵,我们说“一条”对应哪些词,这就隐含了一层意思:用词矩阵适合分析短文本,比如,用户评论,一条条的评论,看看分别含有哪些词。如果是长文本,甚至就是一个文本文件导入到分词工具中,那么生成矩阵没有意义,不叫矩阵,因为只有一行。那样只能做些基于词频的分析,比如,生成一个词云图之类的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的

热门用户

GMT+8, 2026-5-2 15:27