中文社交媒体谣言统计语义分析

2021-9-9 15:26| 发布者: Fuller| 查看: 3084| 评论: 0

摘要: 本文以中文社交媒体新浪微博为研究平台, 从定量统计、语义分析和时序分析等角度, 对收集的9 千余条谣言信息进行了分析研究, 并面向社交媒体提出一套综合机器智能与群体智能的自动辟谣框架, 实验证明其具有较好的有效 ...

下面这篇研究范例,以新浪微博为例,针对收集的谣言信息进行了不同角度的分析统计.在统计分析方面,研究分析了谣言的影响力及其产生与消亡的特点.在语义分析方面,根据不同谣言的语义内容,将微博谣言划分为5大类,并且建立了基于微博谣言的文本分类器.在时序分析方面,根据转发趋势进行了谣言的划分,分析了不同类别谣言的传播特点.最后,本文面向社交媒体提出了一套综合机器智能和群体智能的自动辟谣框架.

同学们搞研究写论文,如果需要收集微博数据,可以使用GooSeeker微博数据采集工具箱,添加网址后启动采集即可。采集完成后就可以导出excel数据表。我们观察到使用这个工具收集微博数据进行研究的同学数量上升得很快。

除了微博工具箱,其实GooSeeker还提供了很多微博相关的快捷采集,这些快捷采集可以和微博工具箱配合使用:

同时我们会不定期发布关于微博数据采集的分享,和基于微博数据的研究分析案例。

下面这2篇文章介绍了微博签到地有关的快捷采集和怎样获取经纬度:

1. 如何使用快捷采集-以微博签到数据采集为例

2. Jupyter Notebook怎样获取微博签到地的经纬度并在地图上显示

1,本研究范例简介

标题:中文社交媒体谣言统计语义分析

作者

刘知远1,2,3 张乐1,2,3 涂存超1,2,3 孙茂松1,2,3 

作者单位

1. 智能技术与系统国家重点实验室

2. 清华信息科学与技术国家实验室(筹)  

3. 清华大学计算机系

关键词:社交媒体;谣言;语义分析;时序分析;辟谣;

基金资助

国家自然科学基金(批准号:61202140); 

国家社会科学基金重大招标项目(批准号:13&ZD190); 

国家重点基础研究发展计划(973计划)(批准号:2014CB340501)资助;

摘要

本文以新浪微博为例,针对收集的谣言信息进行了不同角度的分析统计.在统计分析方面,我们研究分析了谣言的影响力及其产生与消亡的特点.在语义分析方面,根据不同谣言的语义内容,将微博谣言划分为5大类,并且建立了基于微博谣言的文本分类器.在时序分析方面,根据转发趋势进行了谣言的划分,分析了不同类别谣言的传播特点.最后,本文面向社交媒体提出了一套综合机器智能和群体智能的自动辟谣框架.

2,相关知识点和研究方法

2.1,数据处理

为了对微博谣言进行统计和语义分析,将每条微博作为一篇文档, 采用信息检索和自然语言处理中常用的文档表示方法词袋模型 (bag-of-words model), 用微博中的词项及其权重代表这篇文档, 不考虑词项在微博中出现的顺序.

2.2 对谣言的语义分析

在谣言的语义分析中, 研究者希望将这些重复谣言聚类后进行分析. 基于余弦相似度对数据集中微博谣言进行聚类, 将同一话题的微博划分到一起, 具体算法如下: (1) 设定阈值 T, 初始聚类集合 R 为空; (2) 对于数据集中的每条微博 Vi, 计算其与聚类集合 R 中每一个聚类 c 的代表向量 Vc 的余弦相似度 SIM(Vi, Vc), 若相似度大于阈值 T, 则将其加入到 c 中; 若所有聚类均不满足条件, 则新建一个类 c′, 并将 Vi 加入 c′, 将 c′添加到聚类集合 R 中; (3) 计算添加 Vi 的类 c 的新代表向量 Vc, 即计算 c 中各向量的中心点. 利用该方法不断调整阈值, 保证每个聚类的谣言都是关于同一个话题的重复谣言, 最终将 9079 条微博聚成 1798 类.

2.3 可以直接使用的文本分类和聚类

上述算法需要编程,而且多次迭代,聚类算法是比较复杂的。可以直接使用GooSeeker文本分词和情感分析软件,提供的功能:中文分词,词频统计,关键词提取,人工筛选,词云图,社交网络图,情感分析。

还可以将GooSeeker文本分词和情感分析软件 的处理结果交给Python程序做进一步挖掘,比如,文本聚类、话题聚类,以Jupyter Notebook的形式发布给大家,例如:

1. 《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》:详细讲解了LDA的计算步骤,罗列了必要的参考资料

2. 《微博内容分词并手工选词后用JupyterNotebook做LDA主题分析》:使用GooSeeker分词和文本分析软件,做了手工选词,实际上是做了特征词的选择,那么在这个基础上再做话题分析,就会精准很多。

3. 《分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)》:讲解了用LDA模型分析电商网站上的商品评论。由于商品评论的话题是相当封闭的,所以,LDA分析出来的话题一定会比较精准

4. 《Jupyter Notebook使用Python做K-Means聚类分析》:演示了k-means算法的Python程序及其计算结果,并用可视化工具做了展示

3,本研究范例总结

本文以中文社交媒体新浪微博为研究平台, 从定量统计、语义分析和时序分析等角度, 对收集的9 千余条谣言信息进行了分析研究, 并面向社交媒体提出一套综合机器智能与群体智能的自动辟谣框架, 实验证明其具有较好的有效性和可行性.

据该研究作者了解, 这是首次面向中文社交媒体大规模谣言数据比较全面的定量分析研究. 社交媒体谣言还有很多方面亟待深入探索, 例如信息发布者与信息的可信性度量手段、不实信息和可信信息的传播模式、微博评论内容的观点分析与挖掘、专家发现与匹配等等. 总之, 谣言分析与信息可信性的定量分析已经成为当前社会的重要问题, 其高度复杂性要求社会学、传播学和计算机科学的研究者们齐心协力, 共同探索出一条解决之道。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-10-11 14:30