网络新闻舆情分析系列之热点话题

2015-8-7 15:31| 发布者: admin| 查看: 7423| 评论: 0|原作者: HJLing|来自: 集搜客社区

摘要: 新闻具有及时性、真实性和准确性等特点,同时人们可以在网络新闻下自由发表自己的看法,所以网络新闻对于舆情分析而言是一个重要且不可忽略的数据源之一。 ... ... ... ... ... ... ... ... ...

1.引言

新闻具有及时性、真实性和准确性等特点,而网络新闻比报纸更具有及时性,并且人们可以在网络新闻下自由发表自己的评论(敏感词汇除外),所以对一个主题的舆情分析报告不可缺少网络新闻这一数据。网络新闻舆情分析涵盖的范围很广,应用场景多种多样,本文介绍的方案可用于营销活动效果分析,商业事件的传播分析,比如华为P8手机发布会相关的话题传播热度分析。本方案推荐采用最易用的工具方法,比如excel,这类轻量级软件工具在集搜客GooSeeker网页抓取软件的配合下,最适合灵活及时地对热点事件进行观察。

                                       


2.确定数据源

各大搜索引擎(百度、谷歌、搜狗等)搜索主题得到的新闻,以及五大新闻门户网(腾讯、新浪、网易、搜狐、凤凰)的热门新闻跟评。


3.数据采集

集搜客GooSeeker对需要分析的舆情页面进行数据采集。

  • 搜索引擎搜索的新闻列表需采集

新闻标题、新闻详细网址、新闻来源网站、新闻发表时间、新闻摘要、相同新闻条数

  • 新闻门户网热门新闻跟评列表需采集

评论者名称、评论时间、评论内容


4.数据预处理

将采集到的新闻数据转换成excel格式数据后,要从这些数据中进行更多的分析工作还必须对这些数据进行一些处理,包括数据的去重,删除无效数据、格式的处理等等。


5.数据分析

  • 热门新闻(或跟评)

由新闻标题的关键词统计相关新闻的数量(或由新闻跟评的点赞数回复数等总和),得到排名前N位(一般取前10)的新闻(或新闻跟评)。

  • 热度曲线

选择时间段将采集到的数据按照日期统计数量,绘制出该时间段内新闻量(或新闻跟评量)随着日期的变化曲线,观察其变化趋势。

  • 中文分词

分词是中文信息处理的基础,舆情监测首先要将采集到的文本信息进行提取再做分析,那就需要对文本信息进行分词处理。

  • 关键词

对文本信息分词后就得到一个个的自然词,但不是所有的自然词都有意义,所以需要从中提取关键词,缩小人们关注的范围,同时还可以对关键词进行分类。

  • 词频统计

通过对关键词(或分类后的关键词)出现的频数进行统计,可以观察得到人们的关注话题范围,还可以按照时间段分别统计不同时间段的关键词出现频数,观察人们在不同时间段的关注话题范围变化。


6.运用拓展

上述网络新闻舆情分析还可以应用到其他方面如论坛、微博等的舆情分析,具体采集信息根据具体网页而定,如能在网页上抓取到人们的个人信息(如性别、年龄、地域、工作、兴趣爱好等)时,还可以对人们的个人信息进行分析,观察关注该主题的人们群体特征。


7.参考文献

[1]钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术,2008,(4):49-55.

[2]李婷.校园BBS舆情分析系统的设计和实现[D].湖北:华中科技大学,2009.

若有疑问可以集搜客网络爬虫
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

最新评论

GMT+8, 2024-4-26 07:11