基于知网论文关键词和文章摘要的词频统计分析

2021-7-19 16:43| 发布者: Fuller| 查看: 11259| 评论: 0

摘要: 1,问题来源上周在和GooSeeker软件用户交流的时候,有用户问:怎样针对某个单位作者在知网的论文做基于词频的分析,针对关键词和摘要就可以。今天我们就以作者单位为“东莞图书馆”的文章为样本数据,做分词,词频统 ...

1,问题来源

上周在和GooSeeker软件用户交流的时候,有用户问:怎样针对某个单位作者在知网的论文做基于词频的分析,针对关键词和摘要就可以。

今天我们就以作者单位为“东莞图书馆”的文章为样本数据,做分词,词频统计,社交网络图分析。

2,样本数据的收集

在知网,搜索作者单位是“东莞图书馆”的文章,一共大概500篇。

使用GooSeeker网络爬虫软件,采集这些文章的篇名,作者,刊名,发布时间,关键词,摘要等字段

3,数据预处理

由于需要对摘要和关键词做词频统计分析,所以先对这2个字段做数据的预处理:

1. 去除关键词字段的所有空格

2. 去除关键词字段的除分号外的其它标点符号

3. 去除摘要字段大量出现的“正文”

4. 删除摘要和关键词字段都为空的记录

4,按年份统计论文数量(2000年后的)

5,分词和词频统计

使用GooSeeker文本和分词工具对excel表中的“关键词字段”进行分词和基于词频的分析词频统计

5.1 建立分词任务

在GooSeeker文本和分词工具中新建分析任务,并且对自动分词结果进行人工筛选。导出筛选后的多张分词结果表。

5.2 观察导出的词频表

打开词频统计表,可以看到所有词的词频统计,按从高到低的顺序排列

5.3 生成词云图

在GooSeeker分词工具上生成词云图,可以看到论文中出现最多的几个词是:服务,阅读,管理,推广,读者

5.4 生成共现词关系图

对于上图中的几个词频高的词,我们使用社会网络图分别查看和这个词共同出现的相关词。

下图是和“服务”共现的词:

下图是和“管理”共现的词:

下图是和“阅读”共现的词, 可以看到有很多和儿童相关的阅读关键词:

6,对摘要字段分词和分析

使用GooSeeker文本和分词工具对“摘要字段”进行分词和基于词频的分析词频统计

词云图:

社交网络图

7,更多分析

本文主要是为了简单介绍集搜客分词和文本分析软件的使用方法,一篇内容更加丰富的文献分析文章参看《毕业论文写什么,集搜客告诉你——微博数据挖掘篇


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-10-11 13:30