抓取头号玩家电影的微博评论数据做口碑分析

2018-6-11 10:30| 发布者: xandy| 查看: 10705| 评论: 0|原作者: 集搜客GooSeeker

摘要: 《头号玩家》在上映17天后就斩获超过12亿人民币票房,从猫眼9.1评分、豆瓣8.9评分,可见这部电影的高口碑,这也就能解释为什么能得到这么好的票房了。从猫眼的映前想看日增图上看,在上映日3月30这一天,观众的观影 ...

《头号玩家》在上映17天后就斩获超过12亿人民币票房,从猫眼9.1评分、豆瓣8.9评分,可见这部电影的高口碑,这也就能解释为什么能得到这么好的票房了。从猫眼的映前想看日增图上看,在上映日3月30这一天,观众的观影欲望是最大的,后面的日增量也有几个小高峰,说明后劲很足,为了研究电影口碑的作用,我特地选取了上映当天,由第三方影评人写的一篇微博,把微博下面的评论作为研究语料,分析电影的口碑变化。

注:图片来自于猫眼电影,侵删

1,收集数据

选取了一个影评人某一条微博,通过集搜客爬虫的微博评论采集工具把它的评论采集下来。

采集网址:

https://weibo.com/1218981184/G9MOIFbb7?refer_flag=1001030103_&type=comment#_rnd1526022314512

微博评论采集工具:https://www.gooseeker.com/land/weibo.html

由于一点开评论默认就是显示热门评论,不能按时间顺序爬取,另外微博还有反爬限制,所以很难采到全部的数据,不过,另做爬虫规则点击按时间排序或者是采集过程中手工点击按时间排序,还是可以采集到大部分数据,不过我没做这步处理,所以总共收集到864条数据,虽然数据少了点,但是做样本分析也够了。

2,数据清洗

2.1,从采到的数据中,选取了4月内的791条数据进行统计,因为后面5月份采到的数据有些零散就不用了,也就是过滤掉73条数据;

2.2,采集到的评论前面都是博主名字,这里就用到了函数=REPLACE(G2,1,FIND(":",G2),""),把评论里的博主名字过滤掉;

2.3,然后把回复数、点赞数由文本格式转为数字格式,用单元格*1解决;

2.4,把发布时间里的月日提取出来,这里用数据分列功能完成;

2.5,对评论的互动性做统计,满足这三个条件之一:评论里有@别人的、点赞数大于0、回复数大于0,就归为有互动性,都不满足的就是无互动性,利用函数=IF(OR(ISNUMBER(FIND("@",H2)),K2>0,L2>0),1,0)做自动判断,有互动的1标记,无互动的用0标记;

3,数据统计分析

3.1,评论走势

按评论日期,统计出每天的评论量,如上图,电影上映的第一周,除了开始的两天内有个小起伏,基本上每天的评论量都不多,然后在第二周的4月9日(周一)和4月15日(周日)突然都有一个大高峰,结合评论内容来看,大多数是一些观影感受、讨论剧情之类的内容,再结合前面猫眼的映前想看日增图来看,可以说明应该是第一周的口碑已经建立起来了,然后看电影的人就多了,接着就有了后面交流吐槽的高峰期;

3.2,评论互动性

评论里有@别人的或者点赞数大于0或者回复数大于0,都是具有互动的评论,其它的就是没有产生互动的,从上图可以看出,有63%的评论都是无任何互动的,但是有互动的评论也不少,占比37%,其中,点赞互动是最频繁的互动方式,在互动中占比73%,然后才是回复,占比44%。

有互动的评论可以有更好的传播效果,从下图就能看到,有互动的评论量虽然只有293条,但是它互动产生的点赞量、回复量、@别人的量加起来,却是无互动评论的50倍。

3.3,评论情感分析

3.3.1,对评论进行文本分词

利用集搜客的分词打标应用https://www.gooseeker.com/tagtool2,把评论一列数据导入然后自动分词。

3.3.2,选出情感词

然后选出具有情感倾向的词语,再把情感词分成正面词、中性词、负面词三类,根据原数据中包含的词语组合规则,算出其代表的情感倾向。

3.3.3,情感分析

从情感倾向图可以看出,正面评论最多,占比48%,其次是中性评论43%,负面评论只有9%,也就是说,有91%的评论是偏向积极友好的;

从情感走势图可以看出,正面评论、中性评论都是持续产生的,负面评论则是不连续的。

3.4,词云分析

把分词表导入到talgul第三方词云工具,得到上面的词云图,从云图中看出,大家对电影自带的游戏标签讨论最热烈,其次是对电影的观后感,好看是使用最多的好评词语,对于现实与虚拟的感悟是很多的,然后看到资源、1080等词,就知道有不少评论是资源小广告,虽然这种行为非常不好,但是也从侧面说明,头号玩家这部电影的确是很吸引人。


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-4-19 02:57