知网微博数据挖掘研究分析-论文主题数据

xandy

本帖最后由 xandy 于 2018-4-23 17:23 编辑

压缩中包含的数据为：

知网微博数据挖掘研究分析-“论文主题”字段数据

lixueyun · 发表于 2019-1-9 12:31:09

怎么下载啊

Fuller · 发表于 2019-1-9 12:35:08

lixueyun 发表于 2019-1-9 12:31
怎么下载啊

想下载什么内容？

lixueyun · 发表于 2019-1-9 18:21:23

Fuller 发表于 2019-1-9 12:35
想下载什么内容？

请教一下有分词系列的教程吗

Fuller · 发表于 2019-1-9 19:58:29

lixueyun 发表于 2019-1-9 18:21
请教一下有分词系列的教程吗

集搜客的分词工具在这里：https://www.gooseeker.com/res/softdetail_13.html
这个网页上有介绍，很容易使用，不用看教程。
分词工具分词过程是自动的，只要导入文件就启动分词。分完词，需要你手工选择用于分析的特征词，相当于划定一个分析范围。如果不选特征词也行，相当于要分析所有词。但是在量化计算的时候，没有必要使用所有词，因为很多词是没有意义的，而且很多软件也算不了那么多词，通常选择200多个就够了，按照词频的排序，把前200个有意义的词选出来，就能导出一个词矩阵，每一条内容对应哪几个词，就在这个矩阵中。

提到矩阵，我们说“一条”对应哪些词，这就隐含了一层意思：用词矩阵适合分析短文本，比如，用户评论，一条条的评论，看看分别含有哪些词。如果是长文本，甚至就是一个文本文件导入到分词工具中，那么生成矩阵没有意义，不叫矩阵，因为只有一行。那样只能做些基于词频的分析，比如，生成一个词云图之类的

知网微博数据挖掘研究分析-论文主题数据

共 4 个关于本帖的回复最后回复于 2019-4-24 09:39

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

知网微博数据挖掘研究分析-论文主题数据

共 4 个关于本帖的回复 最后回复于 2019-4-24 09:39

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2019-4-24 09:39