Gephi社会网络分析-网络图的统计

2022-9-22 09:38| 发布者: Fuller| 查看: 14292| 评论: 0

摘要: 本文参考Gephi官网的内容，继续学习Gephi网络图的统计。为了使过滤操作有数据支撑，统计就是针对图的整体或者节点或者边的一些统计指标的运算，这些统计值有助于更好的观察和分析网络 ...

在上一篇《Gephi社会网络分析-网络图的过滤器(滤波)》中，我们使用从知乎上采集到的实际的社交媒体数据，经GooSeeker分词工具做分词和选词后生成共词矩阵，在Gephi中导入共词矩阵，在此基础上学习和讨论了Gephi网络图过滤的概念和实际操作演练。

本文参考Gephi官网的内容，继续学习Gephi网络图的统计。其实，上一篇为了使过滤操作有数据支撑，我们已经使用了一个统计操作。简单理解，统计就是针对图的整体或者节点或者边的一些统计指标的运算，这些统计值有助于更好的观察和分析网络。

我们之前在Jupyter Notebook中做过很多各种算法的实践，各种度的计算，这些和Gephi的统计有些是交叉或者有关联的，想详细了解这些算法的实践过程的朋友，可以直接下载这些Notebook后做运行和观察，下面列举其中几篇：

今天我们将继续使用从知乎上采集的“二舅”相关的话题作为我们实验的数据源，将采集结果数据导入GooSeeker文本分词软件，经过选词后生成共词矩阵，以excel的形式导出。有关怎样在Gephi导入不同形式的数据，请参考这篇文章《Gephi社会网络分析数据的批量生成和导入》。

1 什么是Gephi的统计

Gephi提供多种统计（Statistics）方法用于网络分析。

Gephi统计分为网络概述、社>**(不当用词)现、节点概述、边概述、动态这5部分。由节点和边组成的图，主要的研究对象是节点和边，包括图中的节点有什么特性、边有什么特性、节点能组成什么特性、边能组合出什么特性，以及从整体上观察，节点与边的不同使图有什么不同。

常用的有下面这些统计：

研究节点的度：度、加权度、PageRank、聚类系数、特征向量中心度、模块化。
研究边的连接性：网络直径、连接组件。
研究图的整体特性：平均度、平均加权度、图密度、平均路径长度。
研究聚类特性：模块化。

2 Gephi统计（Statistics）的基本过程

2.1 统计操作界面

统计与外观、布局、过滤相比，在操作界面以及设置方面相对比较简单。

统计中的统计项目分为网络概述、社>**(不当用词)现、节点概述、边概述、动态5个部分，如上图所示。

统计界面的左上角有一个“设置”按钮，统计的设置与运算无关。单击“设置”按钮，可以选择自己需要使用的统计方式。

2.2 统计的运行方式

每个统计的使用方式都是相同的，就是单击统计方式右侧的“运行”按钮：

2.3 统计运行后带来的变化

统计与外观关系紧密相关，与过滤存在关系，与数据资料界面中的数据也存在关系。

我们下面做简单网络图的一个PageRank统计，看看统计的运行对数据，过滤，外观有什么影响。

PageRank是网络节点重要性计算的一种算法，是搜索引擎（如百度、Google）用来计算网页排名的最核心的算法。

先来看一下在未运行PageRank前，即先不做统计，数据资料界面、外观界面、过滤界面是什么样的。

在数据资料界面中，此实例的节点数据，如下图所示：

节点数据分为3列，即Id、Label、Interval。

再看外观设置窗口节点的设置，可以看到只有3种渲染方式：度、连入度、连出度。

再看过滤界面，单击“滤波”选项卡，切换到滤波界面。选择“属性→等于”过滤方式，因为目前没有值，所以相应的过滤器也没有出现：

我们来做PageRank统计：单击“统计”选项卡，切换到统计界面。然后单击“PageRank”右侧的“运行”按钮，弹出“网页排名设置”对话框，点击“确定”后会弹出report框，点击关闭即可：

我们再去看看采用“PageRank”统计后的数据资料界面、外观界面、滤波界面的情况。

此时检查节点数据，发现节点数据增加了一列PageRank，如下图所示。其中PageRank一列的值，可以简单理地解为该节点的“重要性”。节点的PageR-ank值越大，代表该节点的重要性越高。该算法应用在网页排序中，某个网页的PageRank值越高，则代表该页面的重要性越高，相应该网页在搜索结果中应该排在前列。

此时检查外观界面中的数值设定，发现在“选择一种渲染方式”下拉列表中增加了“PageRank”渲染方式，如下图所示：

此时检查过滤的“属性→等于”过滤方式，发现增加了“PageRank”一项过滤属性，如下图所示：

通过上面的这个操作过程我们可以理解到，在对一个图做统计运算后，程序会把生成的值存储在数据资料里，当数据资料里有这些值后，就可以提供给“外观”和“过滤”使用，用来对网络做更多的分析。

3 Gephi常用的统计功能介绍

这里我们只对每个统计项做一个基本解释，更详细的内容请参考官网资料及相关的图知识和算法知识。

3.1 网络概述

平均度

平均度与加权平均度所统计的值，既有各个节点的，也有网络总体的。网络直径所统计的值，既有各个节点的，也有网络总体的。

度是节点的属性，但与边有关系，没有边也就没有度，一个节点的边的数量也就是这个节点的度。

平均加权度

平均加权度是在统计节点度时，也考虑边的权重，平均加权度与平均度的计算方式不同。

网络直径

网络直径是统计的边的连接特性，统计网络直径后，得出的值一个是网络整体的，另外几个分别是介数中心度（Betweenness Centrality）、亲密中心度（Closeness Centrality）、离心度（Eccentricity），还有新增的Harmonic Close-ness Centrality。

平均路径长度

指在一个网络中，节点的数量除以所有两个节点最短路径之和，也可以理解为就是求平均每个最短路径可以分配到几个节点。

图密度

图密度是实际有的边数与最大可能边数之比。

模块化

模块化是根据图的连接关系对节点做归类，类型相同的节点会增加一个字段，用相同的数字表示。模块化在社会学中可以用于社区发现。

PageRank

PageRank是一种根据网页之间的链接关系对网页的重要性进行评分的算法。

3.2 节点概述

平均聚类系数

聚类系数是指一个节点一度连接的节点中，实际的边数与最大边数之比。

特征向量中心度

特征向量中心度（Eigenvector Centrality）的核心思想是：一个重要的节点不仅与其他许多节点有连接，而且与它相连的节点也是比较重要的节点。

可以把特征向量中心度算法理解成是（无向图）节点度统计方式的“增强版”。

3.3 边概述

平均路径长度

在一个网络中，两个节点之间，可能存在多条可连通的路径，其中最短的路径也称作最短路径，最短路径的值是最短路径中边的个数。平均路径指的是两个节点之间的路径。

4 使用共词矩阵做Gephi统计实验

4.1 导入GooSeeker分词软件生成的共词矩阵excel文件

4.2 设置外观

4.3 设置布局

4.4 设置显示中文节点名称

注意：要能显示出中文标签名，需要选择特定的几种标签字体。下图选择了“宋体”：

4.5 做PageRank统计

4.6 基于PageRank做过滤

做PageRank统计后，基于PageRank范围做节点过滤

5 总结

以上就是今天学习和实验的Gephi统计相关的内容，和上一篇过滤的学习类似，今天我们仍然使用了从知乎上采集到的实际的社交媒体数据，经分词工具做分词和选词后生成共词矩阵，在Gephi中导入共词矩阵。

从上面的实验可以看出，增加了统计以后，社会网络图上就可以显示更丰富的内容；而最重要的是，多了更多过滤指标。通过过滤，可以看到重要的节点和边的关系，这是社会网络分析的一项重要工作。

在GooSeeker分词和情感分析软件上，提供了按照共现次数多少进行过滤的功能，也就是根据边的权重进行过滤。在此前发布的Jupyter Notebook中，我们又增加了使用MST算法化简图的方法，同时，可以利用Python Numpy的统计功能，用协方差、皮尔森相关系数、余弦相似度等度量边的权重，例如，下面的notebook：

Gephi大大扩展了可以利用的过滤手段。