集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

基于文本挖掘的央行降准政策金融舆情实证研究和预期引导分析 ...

2021-8-3 09:19| 发布者: Fuller| 查看: 5170| 评论: 0

摘要: 基于政策相关衍生话题的微博博文和微博评论做热度分析，词频分析，LDA模型及情感分析。要写作这样一篇论文，GooSeeker有下面3个数据采集和分析工具可以选用。 ...

之前我们分享过政策文本分析的论文范例：我国政府开放数据政策的实施现状和特点研究-基于政府公报文本的量化分析, 这个研究论文范例选取政府公报作为政策文件的研究样本，为最大限度地获取相关研究样本，采用多种检索收集数据策略：

1. 在各省市政府门户网站中查找发布或公开的相关政府公报文本；

2. 选择“北大法宝”、“北大法意网”等专业政策数据库，利用检索词“政府”、“数据”、“开放”进行组配检索；

3. 利用百度、Google 等搜索引擎进行检索，查缺补漏。

今天分享的这篇论文范例，基于政策相关衍生话题的微博博文和微博评论做热度分析，词频分析，LDA模型及情感分析。要写作这样一篇论文，GooSeeker有下面3个数据采集和分析工具可以选用。

1. GooSeeker网络爬虫和微博数据采集工具箱

GooSeeker针对微博开发了一套网络爬虫工具——微博数据采集工具箱，例如，微博关键词搜索采集工具，输入要搜索的关键词，设定时间段，如果微博条数太多，要设置细分条件，即可启动网络爬虫工具，为研究课题收集内容。

2. GooSeeker文本分词和情感分析软件

GooSeeker文本分词和情感分析软件是写论文的重要辅助软件，可以完成自动分词、导出词频和词性表，生成词云图和社交关系图，导出共词矩阵，进行情感分析和关键词提取。

3. 用Python实现的数据挖掘程序

GooSeeker还发布了一系列Python程序，以Jupyter Notebook的方式，可以作为模板，用户填入更多的进一步挖掘文本数据的程序代码，例如：

1. 新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词

2. 怎样利用集搜客的共词矩阵表计算点度中心性(Degree centrality)

3. 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)

1，论文范例简介

标题：基于文本挖掘的央行降准政策金融舆情实证研究和预期引导分析

作者：

原伟玮郭光锐户家齐

中国人民银行天津分行

关键词：金融舆情;微博;LDA模型;央行预期引导;

摘要：

本文以2020年1月1日人民银行发布降准政策为事件主体,利用文本挖掘技术对微博上产生的舆情信息进行研究,通过可视化分析、LDA模型及情感分析,得出公众对于本次政策发布的舆情表现、关注重点以及情绪动向,最后就预期引导实践提出相关建议。

2，主要研究过程和方法

2.1，样本数据的选取

该论文范例通过专业数据采集软件获取研究所需舆情信息，分为两类：一是人民银行发布降准新闻后一段时间内具有较高讨论热度及较大阅读量的话题，包括“央行降准0.5个百分点”“央行决定降准0.5个百分点”，以及“央行降准释放长期资金约8000多亿”“央行1月6日降准0.5个百分点”等相关衍生话题的博文；二是微博网友在官方微博相关博文下的评论内容，经对有效评论进行整理，筛选出“@人民日报”“@新浪财经”“@头条新闻”“@财经网”“@新京报”“@人民网”等17家官方微博的评论内容。

2.2，舆情信息文本的预处理

包括两个步骤，分别是文本去重和机械压缩去词，比如将“好呀好呀好呀”缩成“好呀”。

2.3 主要分析步骤

热度分析：主要是统计基于微博网友发文数量随时间的变化关系

词频分析：舆情信息的词频分析主要使用 R 语言对网友发布的博文及官方微博博文的评论内容进行分词，统计每个词汇的出现频率，并根据出现频率由高到低排列，最终获取出现频率相对较高的词汇。

LDA模型及情感分析：通过R语言利用LDA模型对预处理后的信息文本进行挖掘，探究微博网友发布博文以及在官方微博博文下评论的主题关注点。