豆瓣电影的情感分析

2019-12-20 16:27| 发布者: ym| 查看: 18178| 评论: 10

摘要: 文本分析和文本挖掘方法和技术往往看起来复杂难懂,可以试试集搜客GooSeeke的工具,力求把使用门槛降到最低。在一个情感分析场景中,集搜客提供两个工具配合完成分析任务: 1,用集搜客爬虫做数据采集:解决数据来源 ...

文本分析和文本挖掘方法和技术往往看起来复杂难懂,可以试试集搜客GooSeeke的工具,力求把使用门槛降到最低。在一个情感分析场景中,集搜客提供两个工具配合完成分析任务:

1,用集搜客爬虫做数据采集:解决数据来源和收集的问题;

2,用集搜客分词和分类检索平台:做文本分词、情感分析、文本分类的数据处理;

下面用豆瓣电影短评-做案例,展示整个操作流程,体会一下情感分析是如此简单。


1、爬取影评数据

我们用集搜客爬虫的快捷采集工具来抓取“豆瓣_电影短评”数据,把热门和最新评论的网址添加进去采集,由于豆瓣有浏览限制只能采到前10页,为了获取尽量多的评论,最好是在电影上线后每天重新采一遍最新评论的网址,这样就可以增量采到新发布的评论。

完成采集后打包下载数据,可能会有重复的数据,我们利用Excel的“数据->删除重复项”功能来去重,过滤后是有775条数据,然后,为了下一步做文本分词和情感分析,我们按照下图的表字段名来修改表头。


2、情感分析

访问下面网址,登录到集搜客的分词和分类检索平台上,创建任务并且导入前面整理好的Excel表。然后点进“情感分析”菜单,我们会看到它自带包含2万多个词语的情感词典,点“启动情感分析”,就会把原数据切出句子,并自动与情感词典做匹配,计算输出句子的正负面情感倾向。

当然,自带的情感词典无法对所有语义环境的文本都适用,但没关系,我们可以修改情感词典,甚至把整个词典删掉,导入我们自己整理好的情感词典,每次修改情感词典后,都可以重启情感分析,这样,通过调整情感词典,可以达到更好的情感分析效果。

情感词典也很好整理,分为类型、词语、权值3个属性,类型分为正面词、负面词、否定词、程度词4种,顾名思义,正面词就是具有积极正向情感的词语,负面词就是消极情感的词语,否定词就是对句子情感倾向起到反转作用的词语,程度词就是表示增强或减弱情感强度的词语。而权值就代表了词语所带的情感强弱,4类词都有自己的取值范围,在规定范围里可以根据需要调整词语的权值大小。而系统最终会根据每个词的权值来计算句子的得分,进而判断出对应的情感倾向。

我们可以在“分词选词”菜单里,按词性筛选出形容词、名词、动词等,选出带情感色彩的词语,再整理成情感词表导入分析,这样得到的情感词典就会大大提高跟原数据的拟合度和准确性。


3、统计分析

然后,我们导出情感分析表,会看到有序号和句子序号两个字段,序号就是我们最初整理到的原数据排序,用它可以关联原数据;而句子序号就会句子在原数据里的先后序号。接下来会做一些统计和可视化。

上面表里的情感倾向是对应到句子的,我们通过数据透视图,就可以生成下图。按句子看的话,中性情感是最多的,占比达41%,其次是正面情感占比34%,负面情感占比25%,与正面对比,两者相差9%。

下面我们通过句子来推导出原数据的情感倾向,把属于同一条原数据的正面、中性、负面句子转换为对应的数值1、0、-1,计算求和得到原数据的情感倾向。跟前面句子的情感分布对比,中性情感的占比降低了8%,正面、负面情感分别增加了4%;按原数据来看,整体上表达正面情感的居多,其次是中性情感,最后是负面情感,它跟正面情感的差距依然是9%。

把上图与豆瓣评分进行对比,中性情感比3星占比要少14%,说明不少3星评论,它实际上的情感是偏向正面或负面的,并不是绝对的中性。

最后,把前面匹配到的正面词、负面词分别拷贝添加到“分词选词”菜单的“选词结果”中,就能自动获取到由正面词、负面词各自组成的词云图。从下图1正面词云图可以看出,正面评论里表达喜欢、不错、爱情、惊喜、成功、凯旋的比较多;看下图2负面词云图,负面评论里讨论更多的是绑架、尴尬、荒诞、遗憾、欺骗等。

23

鲜花

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (24 人)

相关阅读

发表评论

最新评论

评论 Fuller 2023-7-24 09:22
甜筒713: 嗷,现在已经做出来了。对了,追问一句,应该用抓取的原文评论做情感分析,还是用分词之后的结果做情感分析?两个我都尝试了,结果有很大不同。 ...
用原文做情感分析,原文中有标点符号,根据标点符号,情感分析程序会自动地切分成句子,给每个句子打分,然后再给整个评论打分
评论 甜筒713 2023-7-23 23:54
嗷,现在已经做出来了。对了,追问一句,应该用抓取的原文评论做情感分析,还是用分词之后的结果做情感分析?两个我都尝试了,结果有很大不同。
Fuller: 同时在线用户多的时候会变慢。现在还没有完成吗?刷新一下页面看看最新状态有没有完成
评论 Fuller 2023-7-23 23:25
甜筒713: “正在做情感打标,请稍等...  ”这个状态持续了半小时了,正常吗
同时在线用户多的时候会变慢。现在还没有完成吗?刷新一下页面看看最新状态有没有完成
评论 甜筒713 2023-7-23 18:56
“正在做情感打标,请稍等...  ”这个状态持续了半小时了,正常吗
评论 Fuller 2022-6-14 09:07
chenjie33403: 数据透视怎么做啊
在百度上搜索一下吧,有挺多excel的教程的
评论 chenjie33403 2022-6-13 19:16
数据透视怎么做啊
评论 Fuller 2021-12-27 16:59
yhyh520: 想问下 正文情感分类里面的总得分值的大小是怎么区分正负面情感倾向的
如果得分是正的,那么就是正面的;如果是负的,那么就是负面的。一篇文档的正负面是由其中一个个句子的正负面累加得出的
评论 yhyh520 2021-12-27 15:52
想问下 正文情感分类里面的总得分值的大小是怎么区分正负面情感倾向的
评论 Fuller 2020-4-10 09:53
842337597: 求问,情感分析的时候把句子分成了两段,怎么能判断整个句子的情感倾向呢?还有赋值怎么能体现出来呢
因为这里无法截图,如果需要看截图讲解的话,可以在“使用交流”那里专门发一个帖子。

在情感分析页面上,看到的分析结果列表是句子级的,如果点击某个句子,在弹出框中看到的是整篇文章的,文章的倾向性是句子的倾向性总和。

目前,情感判断时候的打分值没有导出。如果你的分析任务需要分值,你可以归一化成-1,0,1,-1代表负面,0,中性,1是正面。统计出来的结果跟精确打分的结果差别不大
评论 842337597 2020-4-10 09:34
求问,情感分析的时候把句子分成了两段,怎么能判断整个句子的情感倾向呢?还有赋值怎么能体现出来呢

查看全部评论(10)

GMT+8, 2024-10-5 15:21