快捷导航
本帖最后由 xandy 于 2018-4-23 17:23 编辑

压缩中包含的数据为:
  • 知网微博数据挖掘研究分析-“论文主题”字段数据
数据预览.png


知网微博数据挖掘研究分析-论文主题数据.zip

161.3 KB, 阅读权限: 1, 下载次数: 1266

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-4-24 09:39

lixueyun 新手上路 发表于 2019-1-9 12:31:09 | 显示全部楼层
怎么下载啊
举报 使用道具
Fuller 管理员 发表于 2019-1-9 12:35:08 | 显示全部楼层

想下载什么内容?
举报 使用道具
lixueyun 新手上路 发表于 2019-1-9 18:21:23 | 显示全部楼层
Fuller 发表于 2019-1-9 12:35
想下载什么内容?

请教一下 有分词系列的教程吗

举报 使用道具
Fuller 管理员 发表于 2019-1-9 19:58:29 | 显示全部楼层
lixueyun 发表于 2019-1-9 18:21
请教一下 有分词系列的教程吗

集搜客的分词工具在这里:https://www.gooseeker.com/res/softdetail_13.html
这个网页上有介绍,很容易使用,不用看教程。
分词工具分词过程是自动的,只要导入文件就启动分词。分完词,需要你手工选择用于分析的特征词,相当于划定一个分析范围。如果不选特征词也行,相当于要分析所有词。但是在量化计算的时候,没有必要使用所有词,因为很多词是没有意义的,而且很多软件也算不了那么多词,通常选择200多个就够了,按照词频的排序,把前200个有意义的词选出来,就能导出一个词矩阵,每一条内容对应哪几个词,就在这个矩阵中。

提到矩阵,我们说“一条”对应哪些词,这就隐含了一层意思:用词矩阵适合分析短文本,比如,用户评论,一条条的评论,看看分别含有哪些词。如果是长文本,甚至就是一个文本文件导入到分词工具中,那么生成矩阵没有意义,不叫矩阵,因为只有一行。那样只能做些基于词频的分析,比如,生成一个词云图之类的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 网络爬虫采集html片段时无法生成结果文件怎
  • 网络爬虫占满了c盘怎么清理
  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍

热门用户

GMT+8, 2019-12-8 18:32