GooSeeker分词和情感分析软件自从发布了扩展模块,就可以解除很多限制,比如,基础功能无法执行聚类、LDA分析、基于深度学习的情感分析等计算,因为花费的时间和磁盘空间等资源很大。同样,选词数量也不再限制了,可以选择所有词。但是,生成共词矩阵的时候会消耗大量磁盘空间和时间。 1. 什么是矩阵格式的表和边格式的表 共词矩阵本来就有一半冗余数据,因为共词矩阵是对称的。其次,很多词之间没有共词关系,却依然记录在矩阵表中,白白占用空间。另外,如果存成矩阵格式,假设选择了1000个词,那么就是一个1000 X 1000 大小的矩阵。这就是说要用一个1000行 1000列的表来存储这个矩阵。 如果改成边表,不再是 1000行 1000列 的表,而是用每一行描述一个词与哪个词有共词关系,一行描述一个关系。这样,列数就只有三列,第三列表示共现次数。下面通过图例看看两者的区别:
2. 导出方法 在GooSeeker分词和情感分析扩展模块上导出选词以后的结果时,缺省只导出边表,这些表称为常规表。如下图: 等导出所有常规表以后,可以选择导出矩阵表。由于很花时间和磁盘空间,可以只选择需要的表进行导出。如下图: 3. Gephi可以使用两种表 用Gephi做共现关系分析时,既可以导入边表也可以导入矩阵表。推荐使用边表,因为比较省时间。 选择菜单“文件”->“导入电子表格”。
要注意,共词关系是无向的 导入以后,看到一个糊在一起的图,需要设置Gephi,让显示更加直观。怎样设置,具体可以看GooSeeker论坛上发布的《Gephi社会网络分析软件常用功能讲解》 |