边表格式和矩阵格式的共词矩阵表有什么区别和作用?

2026-2-21 12:15| 发布者: Fuller| 查看: 11| 评论: 0

摘要: 共词矩阵本来就有一半冗余数据,因为共词矩阵是对称的。其次,很多词之间没有共词关系,却依然记录在矩阵表中。如果改成边表,用每一行描述一个词与哪个词有共词关系,一行描述一个关系,不再是 1000行 1000列 的表 ...

GooSeeker分词和情感分析软件自从发布了扩展模块,就可以解除很多限制,比如,基础功能无法执行聚类、LDA分析、基于深度学习的情感分析等计算,因为花费的时间和磁盘空间等资源很大。同样,选词数量也不再限制了,可以选择所有词。但是,生成共词矩阵的时候会消耗大量磁盘空间和时间。

1. 什么是矩阵格式的表和边格式的表

共词矩阵本来就有一半冗余数据,因为共词矩阵是对称的。其次,很多词之间没有共词关系,却依然记录在矩阵表中,白白占用空间。另外,如果存成矩阵格式,假设选择了1000个词,那么就是一个1000 X 1000 大小的矩阵。这就是说要用一个1000行 1000列的表来存储这个矩阵。

如果改成边表,不再是 1000行 1000列 的表,而是用每一行描述一个词与哪个词有共词关系,一行描述一个关系。这样,列数就只有三列,第三列表示共现次数。下面通过图例看看两者的区别:

  • 矩阵格式的表:行和列都是所选的词,交叉点上的数字是共现次数,就是同时出现在多少个文档中。可以看到很多0,表示没有共词关系。0的比例很大,称其为稀疏的矩阵。

  • 边格式的表:每一行描述一个共词关系,即,从哪个词到哪个词有共词关系,显示,没有共词关系的就不用记录,当存储稀疏矩阵的时候,可以大大节省空间。

2. 导出方法

在GooSeeker分词和情感分析扩展模块上导出选词以后的结果时,缺省只导出边表,这些表称为常规表。如下图:

等导出所有常规表以后,可以选择导出矩阵表。由于很花时间和磁盘空间,可以只选择需要的表进行导出。如下图:

3. Gephi可以使用两种表

用Gephi做共现关系分析时,既可以导入边表也可以导入矩阵表。推荐使用边表,因为比较省时间。

选择菜单“文件”->“导入电子表格”。

  • 如果导入边表,要选择“边表格”选项,然后,按照引导导入即可。

  • 如果导入矩阵,要选择“矩阵”选项,

要注意,共词关系是无向的

导入以后,看到一个糊在一起的图,需要设置Gephi,让显示更加直观。怎样设置,具体可以看GooSeeker论坛上发布的《Gephi社会网络分析软件常用功能讲解


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2026-2-21 14:16