使用GooSeeker分词和Gephi进行中文文本分析和社会网络分析

2022-10-12 11:12| 发布者: Fuller| 查看: 7527| 评论: 0

摘要: 前面我们发布了多篇Gephi操作方法的文章,今天这篇,我们要把所用的方法串在一起,执行这些步骤:分词和选词:在GooSeeker分词和情感分析软件上,通过选词可以大幅度提升准确度;生成共词矩阵:共词矩阵就是Gephi需 ...

1. 本文目的

前面我们发布了多篇Gephi操作方法的文章,今天这篇,我们要把所用的方法串在一起,执行这些步骤:

  1. 分词和选词:在GooSeeker分词和情感分析软件上,通过选词可以大幅度提升准确度
  2. 生成共词矩阵:共词矩阵就是Gephi需要的邻接矩阵。也可以生成匹配矩阵,就是feature matrix,可以做更加精细的统计分析
  3. 在Gephi上设置外观
  4. 在Gephi上定义统计
  5. 利用定义的统计指标,对图进行各种各样的过滤,凸显有价值的信息。

此前发布的学习和使用Gephi的过程和心得记录如下,可以参考:


很久以前,我们在知乎“学习python网络爬虫建设智慧时空数据库”专栏发布过一篇《利用GooSeeker分词、Ucient和NetDraw进行社会网络分析( https://www.gooseeker.com/doc/article-442-1.html )》,这篇文章讲解了怎样使用集搜客分词工具提取词频统计表,然后在excel里构建共词矩阵,再将共词矩阵表导入Ucinet,通过Netdraw绘制微博主题关系图。

这几年GooSeeker分词工具经过多次功能升级,新增和优化了多项功能,比如生成共词矩阵,在GooSeeker分词工具里可以直接生成和导出,不需要按上面这篇文章的步骤先导出一个词频表,再在excel里做转换了。

相比之下,Gephi提供了对网络图进行多种过滤的手段,使研究者能对数据从网络整体,节点或者边进行过滤操作,从而帮助分析人员能面对一个更美观更直观的网络图来进行探索和分析。所以,当前我们更推荐GooSeeker和Gephi配合使用的方案。

2. 本文适合的读者和对数据的说明

在近期这些Gephi学习的文章发布后,有同学留言能否发布一篇新的使用GooSeeker分词工具和Gephi做中文文本分析和社会网络分析的文章,在文章中可以重点介绍目前GooSeeker分词工具最新版有哪些功能,可以导出哪些数据表,怎样基于这些数据表在Gephi中做进一步观察和分析。

作为回应,今天的这篇文章会从步骤上讲解怎样使用目前GooSeeker分词工具最新版和Gephi做中文文本分析和社会网络分析。更具体的案例,我们会在后续的其它文章中继续讲解。

本文所用的数据源自知乎问题《影视编剧谈《回村三天,二舅治好了我的精神内耗》刷屏,称「反映出当下文艺创作空乏悬浮」,如何看待其观点?》的回答,使用GooSeeker网络爬虫工具从知乎网页上采集并导出excel数据表。

3. 使用GooSeeker分词做中文文本分析

GooSeeker分词目前的功能包括下图的几部分:

3.1 读取数据

导入的excel数据文件,需要有序号和正文这2列,其它的可选。

3.2 分词和词频统计(自动完成)

需要说明的是,只要读取数据成功后,就会自动分词和做词频统计。这时候就可以导出“词频统计表”,不需要做选词等其它操作。

3.3 人工选词

针对不同的数据,不同的研究目标,人工对已经分好的词做精选处理。这一步的结果用于后面的词云图和共词矩阵的生成。如果后面要做统计分析,选词一步十分重要,可以确保分析结果准确。在选词的时候,词是按照词频排序的,所以,从前往后选是合适的,词频越高越重要。选词完成后,在选词结果那里可以再根据文档频率排序,把文档频率太低的词去掉。如果要做统计分析,文档频率太低的词会造成过拟合。

3.4 生成词云图

3.5 共词匹配和社会网络图

点击“共词矩阵”功能按钮,待共词匹配完成后,就可以下载共词矩阵数据,也可以生成社会网络图。

3.6 同义词合并

3.7 导出数据表

可导出的数据表有:词频表,分词效果表,选词结果表,选词匹配表,共词矩阵表,选词矩阵表。

共词矩阵表可以在Gephi的数据导入界面直接导入后生成网络图。

但是,共词矩阵中只表示词是否出现,并没有考虑一个词在一个文档中的出现次数。如果需要考虑进去出现次数,或者先计算TF-IDF,那么应该使用选词矩阵表自行计算网络图的邻接矩阵。也就是说,选词矩阵表就是机器学习需要的feature matrix 。选词矩阵转置以后乘以自己,就是邻接矩阵,这在《共词分析中的共词关系是怎么得到的?》一文已经讲过。

4. Gephi做社会网络分析

用来生成网络图的数据,是上面介绍的从GooSeeker分词工具生成并导出的共词矩阵“共词矩阵-知乎-二舅.xlsx”,打开文件查看内容是这样的:

4.1 导入共词矩阵

4.2 网络图外观设置

4.3 网络图布局

4.4 网络图统计

4.5 网络图过滤及观察分析

定义了一些统计指标以后,就能应用到网络图的过滤,这样可以突出观察一些信息。此前,我们曾经用Jupyter Notebook的方式,共享了一些网络图过滤的程序,在python下,最常用的是根据边权重进行删减,还有MST算法进行大幅度删减。而在Gephi中,能找到更多的过滤方法。

这篇文章介绍了怎样使用的GooSeeker分词工具和Gephi做中文文本分析和网络分析的流程,具体每一步更详细的介绍,可以参考GooSeeker分词文档和Gephi的文档和学习记录。

我们接下来会采集不同的社交媒体数据,使用GooSeeker分词工具和Gephi做中文文本分析和网络分析实践,过程也会记录下来和大家共享。

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2024-9-12 09:23