互联网上孕育的社会性媒体(social media)的发展速度十分惊人,给社会生活各方面带来很大冲击,快速传播和广泛覆盖是传统媒体(例如,industrial media,或者,traditional media)和口口相传无法匹及的。所以,网络舆情监测的受关注度越来越高,当网络舆情监测需求延伸到商业领域后,雄厚商业资金和其它资源的投入促发舆情监测的爆炸性增长。
监控网络舆论也许与治水有相似之处,疏导优于封堵,舆情疏导(Public Opinion Persuasion)是新一代网络舆情监控系统的目标。网络上有很多被热炒的事件,参与推动和传播的人绝大多数都没有亲临事件现场或亲历其经过,往往以既往经历和社会情感倾向或者跟随心理参与到事件炒作中,其中不乏被误导的事例。此时,如果将真相及时传递给民众,积极地进行舆情疏导,很多事件不会掀起如此大的波澜。例如,此前的丰田汽车事件,通过各种媒体的传播,一定程度影响了消费行为。现今,博客、论坛、微博、社交网站等备受各公司团体的关注,寻求最经济有效的手段监测网络舆情,及时疏导舆论。
然而,无论什么系统解决方案,要做到经济有效,必须解决诸多技术问题。网络舆情监测平台SliceProfile凭借深厚的技术功底和丰富的行业经验,被广泛用于汽车、电子消费品、网络游戏等领域的舆情监控和舆论疏导。下面重点讲解两大核心技术:
- 基于高效网络爬虫和高精度信息提取的即时搜索技术
- 基于数据挖掘的深度分析技术
即时搜索
一个事件在互联网上的爆炸期很短,想达到疏导目的,必须在爆炸早期进行舆论引导。这需要即时甚至实时地从互联网上抓取网页,SliceProfile采用MetaSeeker定题网络爬虫和信息提取工具,对需要跟踪监测的网页设定短周期重复抓取调度规则。
但是,单纯地缩短抓取周期不是经济有效的方案,必须以足够低的成本抓住重点,所以,SliceProfile通过分析用户关注度(点击量、回复量)进一步调整调度参数,对重点事件重点跟踪。而高精度数据提取是数据挖掘和分析的基础,在数据挖掘的基础上才能更准确地设定调度参数。
数据挖掘和深度分析
SliceProfile采用专有的中文文本挖掘技术,采用改进的Rocchio算法,实现了高精度中文文本分类器(High Precision Classifier),再结合专有的层次化分类树算法(HCT,Hierarchical Class Tree),实现准确度(Precision)和召回率(Recall)的平衡。
SliceProfile采用专用的数据仓库,对商业舆情数据进行多维分析,例如,监控重点事件的发展趋势、针对危机信息上报预警提示等。分析结果可以回馈给即时搜索子系统,以调整监测参数。
总结
SliceProfile是一个通用的舆情监测平台,其中文文本分类器可以被训练成各种领域的文本挖掘工具,例如,汽车危机信息预警系统和市场分析系统是其中一个应用案例。