基于服装网购评论的消费热点情报分析

2021-6-28 11:07| 发布者: Fuller| 查看: 4089| 评论: 0

摘要: 消费者行为和心理研究是一项重要的内容,可以从分析消费者感知入手,就是消费者在整个消费过程中的情感流露,包括购买前的决策、购买中的体验、产品使用过程中的全面的感知和体验。电商蓬勃发展起来以后,在线评论可 ...

消费者行为和心理研究是一项重要的内容,可以从分析消费者感知入手,就是消费者在整个消费过程中的情感流露,包括购买前的决策、购买中的体验、产品使用过程中的全面的感知和体验。电商蓬勃发展起来以后,在线评论可以利用网络爬虫大量获得,给研究消费者感知和产品口碑提供了便利。

在商品评论中蕴含着大量的和用户以及产品相关的有用信息,产品的在线评论属于口碑(WOM,Word-of-Mouth)的范畴,对口碑的研究是管理学中非常热门的课题方向,因为很多经典的实证研究都证明——用户在购买产品时大多会参考口碑信息,其购买行为以及后续对产品的体验和评价都会直接或者间接地受到口碑的影响。从电商营销角度说,可以称之为口碑管理,在营销、生产、经营管理闭环中起重要作用。

上周Gooseeker有几篇电商评论采集和分析的原创文章已经发布:

1.分析电商评论发现消费者话题-数据采集篇

2.分析电商评论发现消费者话题-分词和情感分析篇

3.分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)

今天分享给大家的是一篇针对服装评论的研究案例。

1,案例简介

本案例针对电商服装用户评论数据,采用GooSeeker文本分词和情感分析软件进行新词识别和关键词抽取,综合两方面提取的结果,以达到提高特征关键词精确抽取的目的。对于数据的处理,有这些步骤:数据采集,数据预处理,情感倾向性分类,关键词抽取,情报可视化分析。

研究的步骤示意图如下:

2,相关知识

2.1,什么是TD-IDF

词频(Term Frequency,TF)指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,即用给定词语的次数除以当前文件的总词数。

逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现,表示更能代表文件的主旨,它的权重也就越大;如果一个词在大量文件中都出现,表示不清楚代表什么内容,它的权重就应该小。

TF-IDF的主要思想是,如果某个词语在一篇文章中出现的频率高,并且在其他文章中较少出现,则认为该词语能较好的代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库中文档出现的频率成反比。

3,论文案例详情

标题:基于服装网购评论的消费热点情报分析 

作者:浙江理工大学 胡觉亮,徐瑶瑶,董建明

关键词:服装网购;评论;消费热点;情感分类;关键词抽取;社会网络分析

摘要: 为有效指导服装企业生产经营决策,选取服装网购评论为数据样本和研究对 象,提出了基于服装网购评论的消费热点情报分析方法,以探究消费者对所采购的服装的关注热点。采用网络爬虫技术采集服装网购评论数据并进行预处理后,利用SnowNLP技术进行情感倾向性分类。在关键词抽取时针对分词过程存在错分专业词汇问题,引入服装专业领域分词词典和停用词典,并结合GooSeeker方法和人工调整方法进一步提高关键词抽取精准度。关键词抽取后建立共词矩阵,并聚类进行社会网络分析得到消费热点情报信息。以真丝服装网购评论进行实证分析以验证方法的有效性。结果发现:真丝服装网购消费者依次易就面料、颜色、尺码、质量等热点关键词给出负面反馈;此外还得到这些热点关键词关联的负面反馈信息及与其他热点关键词之间的相互关系,如面料的负面反馈主要与薄透、褶皱、缩水和引申的丝料价格贵有关,对面料差评的消费者往往会更关注尺码、物 流、价格以及退换货等信息。

4,怎样下载更多电商评论数据

GooSeeker针对电商在线评论有一系列快捷采集可以使用,输入商品网址,即可启动网络爬虫工具,为研究课题收集内容。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-10-4 19:06