在CSDN上有这样一个帖子《共现矩阵》,它给出的截图,对角线上的数字全部是0,而集搜客分词和文本分析软件导出的数字不是0,对于共词分析和度分析有没有影响。

我还看到这么一个帖子:
因为TFIDF算法的提取关键词的准确性很差,tfidf提取出的关键词很难看出文本的主旨,于是考虑结合文本语义对词汇的权重(IDF)重新分配,于是想要借鉴SKE算法,即将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。
因为构造词语网络需要先构造关键词共现图,关键词共现图需要先构造关键词共现矩阵,所以第一步就是构造关键词共现矩阵。

还有程序:《关键词提取:构造共现矩阵》。我准备模仿写个程序试试


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2022-12-29 10:32

Fuller 管理员 发表于 2020-10-14 12:02:44 | 显示全部楼层
对于分析没有影响。对角线上不是0,而是表示发生共现的文档数量,这样可以在展示共现关系图的时候,用不同大小的气泡表示共现的频繁程度。

集搜客分词和文本分析软件具有导出共现矩阵的功能,也可以直接显示共现关系图。
举报 使用道具
郑小约 初级会员 发表于 2022-12-27 22:44:52 | 显示全部楼层
我也觉得对角线数值有问题。对角线是不是0是影响分析的。节点的度都发生了变化,统计指标也会因此发生变化吧。集搜客分词工具导出的共词矩阵对角线上的数字是这个词出现的文档数量(文档频数),并不是这个词本身在同一文档中出现两次的数量。
举报 使用道具
Fuller 管理员 发表于 2022-12-28 11:51:18 | 显示全部楼层
郑小约 发表于 2022-12-27 22:44
我也觉得对角线数值有问题。对角线是不是0是影响分析的。节点的度都发生了变化,统计指标也会因此发生变化 ...

在共词矩阵中,所有数字都是“文档”的数量,不是词频,比如,一个文档中同一个词可能出现3次,这个词的词频就是3,而出现的文档数是1 。
非对角线的数字是两个不同的词同时出现的文档数量
对角线是某个词出现在多少个文档中。

在做网络分析的时候,一般情况下都需要把对角线设置成0。不然的话,在某些情况下会影响分析结果。如果用网络图表示共词关系,如果对角线不为0,那么就有一个自环边,会影响很多图计算算法。比如,图切割、最小权重路径等等。

这里有一系列使用python和networkx在notebook中做图分析的例子:https://www.gooseeker.com/doc/thread-18414-1-1.html
举报 使用道具
郑小约 初级会员 发表于 2022-12-29 10:32:05 | 显示全部楼层
Fuller 发表于 2022-12-28 11:51
在共词矩阵中,所有数字都是“文档”的数量,不是词频,比如,一个文档中同一个词可能出现3次,这个词的 ...

好的,感谢解答!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:46