快捷导航

Gephi社会网络分析-网络图的统计

2022-9-22 09:38| 发布者: Fuller| 查看: 1068| 评论: 0

摘要: 本文参考Gephi官网的内容,继续学习Gephi网络图的统计。为了使过滤操作有数据支撑,统计就是针对图的整体或者节点或者边的一些统计指标的运算,这些统计值有助于更好的观察和分析网络 ...

在上一篇《Gephi社会网络分析-网络图的过滤器(滤波)》中,我们使用从知乎上采集到的实际的社交媒体数据,经GooSeeker分词工具做分词和选词后生成共词矩阵,在Gephi中导入共词矩阵,在此基础上学习和讨论了Gephi网络图过滤的概念和实际操作演练。

本文参考Gephi官网的内容,继续学习Gephi网络图的统计。其实,上一篇为了使过滤操作有数据支撑,我们已经使用了一个统计操作。简单理解,统计就是针对图的整体或者节点或者边的一些统计指标的运算,这些统计值有助于更好的观察和分析网络。

我们之前在Jupyter Notebook中做过很多各种算法的实践,各种度的计算,这些和Gephi的统计有些是交叉或者有关联的,想详细了解这些算法的实践过程的朋友,可以直接下载这些Notebook后做运行和观察,下面列举其中几篇:

今天我们将继续使用从知乎上采集的“二舅”相关的话题作为我们实验的数据源,将采集结果数据导入GooSeeker文本分词软件,经过选词后生成共词矩阵,以excel的形式导出。有关怎样在Gephi导入不同形式的数据,请参考这篇文章《Gephi社会网络分析数据的批量生成和导入》。

1 什么是Gephi的统计

Gephi提供多种统计(Statistics)方法用于网络分析。

Gephi统计分为网络概述、社>**(不当用词)现、节点概述、边概述、动态这5部分。由节点和边组成的图,主要的研究对象是节点和边,包括图中的节点有什么特性、边有什么特性、节点能组成什么特性、边能组合出什么特性,以及从整体上观察,节点与边的不同使图有什么不同。

常用的有下面这些统计:

  • 研究节点的度:度、加权度、PageRank、聚类系数、特征向量中心度、模块化。
  • 研究边的连接性:网络直径、连接组件。
  • 研究图的整体特性:平均度、平均加权度、图密度、平均路径长度。
  • 研究聚类特性:模块化。

2  Gephi统计(Statistics)的基本过程

2.1 统计操作界面

统计与外观、布局、过滤相比,在操作界面以及设置方面相对比较简单。

统计中的统计项目分为网络概述、社>**(不当用词)现、节点概述、边概述、动态5个部分,如上图所示。

统计界面的左上角有一个“设置”按钮,统计的设置与运算无关。单击“设置”按钮,可以选择自己需要使用的统计方式。

2.2 统计的运行方式

每个统计的使用方式都是相同的,就是单击统计方式右侧的“运行”按钮:

2.3 统计运行后带来的变化

统计与外观关系紧密相关,与过滤存在关系,与数据资料界面中的数据也存在关系。

我们下面做简单网络图的一个PageRank统计,看看统计的运行对数据,过滤,外观有什么影响。

PageRank是网络节点重要性计算的一种算法,是搜索引擎(如百度、Google)用来计算网页排名的最核心的算法。

先来看一下在未运行PageRank前,即先不做统计,数据资料界面、外观界面、过滤界面是什么样的。

在数据资料界面中,此实例的节点数据,如下图所示:

节点数据分为3列,即Id、Label、Interval。

再看外观设置窗口节点的设置,可以看到只有3种渲染方式:度、连入度、连出度。

再看过滤界面,单击“滤波”选项卡,切换到滤波界面。选择“属性→等于”过滤方式,因为目前没有值,所以相应的过滤器也没有出现:

我们来做PageRank统计:单击“统计”选项卡,切换到统计界面。然后单击“PageRank”右侧的“运行”按钮,弹出“网页排名设置”对话框,点击“确定”后会弹出report框,点击关闭即可:

我们再去看看采用“PageRank”统计后的数据资料界面、外观界面、滤波界面的情况。

此时检查节点数据,发现节点数据增加了一列PageRank,如下图所示。其中PageRank一列的值,可以简单理地解为该节点的“重要性”。节点的PageR-ank值越大,代表该节点的重要性越高。该算法应用在网页排序中,某个网页的PageRank值越高,则代表该页面的重要性越高,相应该网页在搜索结果中应该排在前列。

此时检查外观界面中的数值设定,发现在“选择一种渲染方式”下拉列表中增加了“PageRank”渲染方式,如下图所示:

此时检查过滤的“属性→等于”过滤方式,发现增加了“PageRank”一项过滤属性,如下图所示:

通过上面的这个操作过程我们可以理解到,在对一个图做统计运算后,程序会把生成的值存储在数据资料里,当数据资料里有这些值后,就可以提供给“外观”和“过滤”使用,用来对网络做更多的分析。

3 Gephi常用的统计功能介绍

这里我们只对每个统计项做一个基本解释,更详细的内容请参考官网资料及相关的图知识和算法知识。

3.1 网络概述

平均度

平均度与加权平均度所统计的值,既有各个节点的,也有网络总体的。网络直径所统计的值,既有各个节点的,也有网络总体的。

度是节点的属性,但与边有关系,没有边也就没有度,一个节点的边的数量也就是这个节点的度。

平均加权度

平均加权度是在统计节点度时,也考虑边的权重,平均加权度与平均度的计算方式不同。

网络直径

网络直径是统计的边的连接特性,统计网络直径后,得出的值一个是网络整体的,另外几个分别是介数中心度(Betweenness Centrality)、亲密中心度(Closeness Centrality)、离心度(Eccentricity),还有新增的Harmonic Close-ness Centrality。

平均路径长度

指在一个网络中,节点的数量除以所有两个节点最短路径之和,也可以理解为就是求平均每个最短路径可以分配到几个节点。

图密度

图密度是实际有的边数与最大可能边数之比。

模块化

模块化是根据图的连接关系对节点做归类,类型相同的节点会增加一个字段,用相同的数字表示。模块化在社会学中可以用于社区发现。

PageRank

PageRank是一种根据网页之间的链接关系对网页的重要性进行评分的算法。

3.2 节点概述

平均聚类系数

聚类系数是指一个节点一度连接的节点中,实际的边数与最大边数之比。

特征向量中心度

特征向量中心度(Eigenvector Centrality)的核心思想是:一个重要的节点不仅与其他许多节点有连接,而且与它相连的节点也是比较重要的节点。

可以把特征向量中心度算法理解成是(无向图)节点度统计方式的“增强版”。

3.3 边概述

平均路径长度

在一个网络中,两个节点之间,可能存在多条可连通的路径,其中最短的路径也称作最短路径,最短路径的值是最短路径中边的个数。平均路径指的是两个节点之间的路径。

4 使用共词矩阵做Gephi统计实验

4.1 导入GooSeeker分词软件生成的共词矩阵excel文件

4.2 设置外观

4.3 设置布局

 

4.4 设置显示中文节点名称

注意:要能显示出中文标签名,需要选择特定的几种标签字体。下图选择了“宋体”:

4.5 做PageRank统计

4.6 基于PageRank做过滤

做PageRank统计后,基于PageRank范围做节点过滤

5 总结

以上就是今天学习和实验的Gephi统计相关的内容,和上一篇过滤的学习类似,今天我们仍然使用了从知乎上采集到的实际的社交媒体数据,经分词工具做分词和选词后生成共词矩阵,在Gephi中导入共词矩阵。

从上面的实验可以看出,增加了统计以后,社会网络图上就可以显示更丰富的内容;而最重要的是,多了更多过滤指标。通过过滤,可以看到重要的节点和边的关系,这是社会网络分析的一项重要工作。

在GooSeeker分词和情感分析软件上,提供了按照共现次数多少进行过滤的功能,也就是根据边的权重进行过滤。在此前发布的Jupyter Notebook中,我们又增加了使用MST算法化简图的方法,同时,可以利用Python Numpy的统计功能,用协方差、皮尔森相关系数、余弦相似度等度量边的权重,例如,下面的notebook:

Gephi大大扩展了可以利用的过滤手段。


鲜花
1

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2022-12-4 16:43