基于热点主题识别的突发事件次生衍生事件探测

2021-8-13 16:48| 发布者: Fuller| 查看: 2964| 评论: 0

摘要: 本研究论文范例获取了133947条2018年长春长生疫苗事件相关微博数据,并基于危机传播四阶段理论对该事件各生命周期阶段的微博数据提取微博文本的特征词,通过word2vec模型和K-means聚类算法提取突发事件各生命周期微 ...

本研究论文范例获取了133947条2018年长春长生疫苗事件相关微博数据,并基于危机传播四阶段理论对该事件各生命周期阶段的微博数据提取微博文本的特征词,通过word2vec模型和K-means聚类算法提取突发事件各生命周期微博文本的主题,再基于H指数计算各主题的影响力,筛选得到该突发事件的热点主题,并构建突发事件次生衍生事件的判定规则,探测其次生衍生事件。

写论文需要收集微博数据,一般我们推荐同学们使用GooSeeker微博数据采集工具箱,多个工具互为配合,统一的界面设计,使用起来很方便。

由于python有大量的优秀的第三方库,我们也会不定期发布在Jupyter Notebook下进行数据处理和数据分析的模板给大家,比如下面这几篇:

1. Jupyter Notebook怎样获取微博签到地的经纬度并在地图上显示

2. JupyterNotebook做层次分析法(AHP)权重计算

3. 微博内容分词并手工选词后用JupyterNotebook做LDA主题分析

4. 新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词

1,论文范例简介

标题:基于热点主题识别的突发事件次生衍生事件探测

作者

安璐 (武汉大学信息资源研究中心 湖北 430072; 武汉大学信息管理学院 湖北 430072)

李倩 (北京大学信息管理系 北京 100871)

关键词:突发事件;次生衍生事件探测;热点主题;生命周期;

基金资助

教育部哲学社会科学研究重大课题攻关项目“提高反恐怖主义情报信息工作能力对策研究”(项目编号:17JZD034); 国家自然科学基金创新研究群体项目“信息资源管理”(批准号:71921002);国家自然科学基金重大课题“国家安全大数据综合信息集成与分析方法”(批准号:71790612)的研究成果之一;

摘要

[目的/意义]突发事件的发展演化可能引发一系列次生衍生事件,扩大事件本身的作用幅度和影响范围,故而研究突发事件次生衍生事件的探测问题具有重要的理论价值与现实意义。

[方法/过程]本文获取了133 947条2018年长春长生疫苗事件相关微博数据,并基于危机传播四阶段理论对该事件各生命周期阶段的微博数据提取微博文本的特征词,通过word2vec模型和K-means聚类算法提取突发事件各生命周期微博文本的主题,再基于H指数计算各主题的影响力,筛选得到该突发事件的热点主题,并构建突发事件次生衍生事件的判定规则,探测其次生衍生事件。

[结果/结论]研究结果表明,长春长生疫苗事件共涉及个人、企业和政府层面共17个次生衍生事件。构建突发事件次生衍生事件的判定规则与探测方法,丰富了突发事件管理的理论与方法,有助于及时掌握突发事件次生衍生事件的发生机理,提高突发事件的风险应对能力。

2,本论文范例主要研究方法学习

2.1 基于生命周期的突发事件微博热点主题识别

本文按照突发事件的生命周期理论,分阶段识别事件相关微博的主题。基于Steven提出的危机传播四阶段理论[37]将突发事件网络舆情生命周期划分为起始期、爆发期、蔓延期和衰退期四个阶段。

突发事件微博热点主题识别的主要流程是:

1. 首先利用TF-IDF选取特征词,

2. 然后用word2vec进行词向量表示,

3. 再通过K-means方法开展聚类分析,

4. 最后计算每个聚类主题的 H 指数,识别出影响力较大的热点话题。计算每条微博的转发量、评论量、点赞量的平均值,对每个聚类中的每条微博的该平均值进行降序排列,在每个聚类中找到序号不大于对应平均值的最大序号标识,即可得到各个聚类的H指数。H指数越大,则话题热度越高。

2.2 次生衍生事件探测方法

次生衍生事件的特征包括:

(1)具有一定的社会影响力,不论是潜在危害性或是积极正面的影响;

(2)与原始事件的联系性,是原始事件的延伸或分裂,表现为脱离了原核心关键词又出现新的关键词;

(3)在原始突发事件发生之后产生;

(4)是真实发生的事件,而非谣言或猜测

3,本论文范例研究结论

本文对“长春长生疫苗事件”的微博数据进行爬取和预处理后,将相关微博数据分为萌芽期、爆发期、蔓延期、衰退期四个生命周期阶段,对每一个周期的数据利用TF-IDF抽取特征词,并基于word2vec和K-means进行微博文本的主题提取,再基于H指数计算话题影响力,得到该突发事件的热点主题。将突发事件的次生衍生事件的判定规则定义为具有一定的社会影响力,不论是潜在危害性或是积极正面的影响;与原始突发事件具有一定的联系性,是原始事件的延伸或分裂,表现为脱离了原核心关键词又出现新的关键词;在原始突发事件发生之后产生;是真实发生的事件,而非谣言或猜测,并基于这种判定规则对热点主题提取得到的22个话题进行次生衍生事件判定,得到17个次生衍生事件,为同类突发事件次生衍生事件的探测提供了一定的参考。

下图是探测到的主题列表:


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-12-5 06:21