情感分析结果怎样用Jupyter Notebook生成走势图等图表

2021-6-3 11:01| 发布者: Fuller| 查看: 6317| 评论: 10

摘要: GooSeeker分词和文本分析软件有多项功能:分词,词频统计,情感分析,生成社交网络图,生成多种词云图,并且可以把生成的图片保存到本地。但是,很多时候我们在Jupyter Notebook中进行交互式数据处理和数据分析 ...

1,项目说明

1.1,数据分析师可以驾驭的数据处理模板

我们在进行数据分析和展示时,会经常用到图表,使用图表有哪些好处呢: 1、能够让我们更加的直观看到我们的数据。 2、能够比文字更简洁的描述出我们所想要表达的内容。 3、我们可以通过图表很好的将一些事物中隐藏的联系,进行关联,使得我们能够发现众多数据中的小秘密,让他们不仅仅只是一堆杂乱无章的数字而已。 4、图表的使用还能够让我们的文章内容更的严谨,使得我们的数据可信度更高。

GooSeeker分词和文本分析软件有多项功能:分词,词频统计,情感分析,生成社交网络图,生成多种词云图,并且可以把生成的图片保存到本地。但是,GooSeeker分词软件目前还没有针对情感分析结果进行可视化的功能。很多时候我们在Jupyter Notebook中进行交互式数据处理和数据分析,分析过程和结果展示往往是一个整体,那么需要在Notebook中根据情感分析结果生成各种图表, 以直观的了解内容的情感分布和变化趋势。

然而Python毕竟是一个全功能的编程语言,对于非编程出身的数据分析师来说,Pandas,Numpy,Matplotlib这些词让人望而生畏。本系列Notebook将设法解决这个问题,让非编程出身的数据分析师能够忽略复杂的编程过程,专注于数据处理和统计分析部分,就像使用Excel的公式一样驾驭Python。

所以,我们将尝试发布一系列Jupyter Notebook,像文档模板,一些基本的程序环境设置、文件操作等固化下来,在设定的分析场景下不需要改动程序代码。而数据处理部分的代码可以根据需要截取选用。每一项功能用一个code cell存代码,不需要的处理功能可以删除。

1.2,本模板适应的场景

本模板根据GooSeeker分词和文本分析软件生成的情感分析结果excel表,对数据进行基本处理后,生成常用的几种图表。

1.3,使用方法

基本操作顺序是:

1. 在GooSeeker分词和文本分析软件上进行任务创建并导入包含原始内容的excel(注:原始内容是使用微博关键词工具采集到的结果,包含有发布时间字段),启动情感分析,并导出情感分析结果表。

2. 将导入分词和文本分析软件的包含原始内容的excel放在本notebook的data/raw文件夹中

3. 将导出的情感分析结果表放在本notebook的data/raw文件夹中

4. 从头到尾执行本notebook的单元

注意:每个notebook项目目录都预先规划好了,具体参看Jupyter Notebook项目目录规划参考。如果要做多个分析项目,把整个模板目录专门拷贝一份给每个分析项目。

1.4,简要技术说明

在每个功能项单元,如果不需要关心的编程细节,将注明【编程细节】。

本notebook主要实现以下几个步骤:

1. 读取data/raw文件夹中的从分词工具导出的情感分析结果表

2. 读取data/raw文件夹中的包含原始内容的excel表,主要是要读取这个表的发布时间字段

3. 对情感分析数据进行基本的预处理

4. 生成各种图表

2,第三方库

本notebook使用了pyecharts,需要安装这个第3方库,假设读者安装的是Anaconda套件,那么安装步骤是这样的:

1. 在Windows开始菜单中找到Anaconda

2. 在Anaconda菜单中找到Anaconda Prompt菜单,选择这个菜单可以打开一个命令行窗口

3. 在命令行窗口输入这个命令:pip install pyecharts

4. 安装完成以后,执行本notebook中的代码cell,如果pyecharts没有安装成功,下面第一个代码cell就会执行失败

3,数据源

数据源是GooSeeker分词和文本分析软件生成的情感分析结果excel表。 原始数据是从微博上采集的关于“甘肃马拉松事故”的博文数据。供参考和实验。

常用的自然语言处理包括分词、文本分类、情感分析等等,虽然也有对应的Python程序库直接调用,但是为了降低项目执行的复杂度,直接使用GooSeeker分词和文本分析软件。将要分析的微博内容以Excel格式导入该软件,几分钟后就能得到词频词性表和分词效果表。如果还做了关键词筛选,还可以生成共词矩阵和社交关系图。另外情感分析也可自动执行,也可以配置自己的情感词库和文本分类关键词。下图展示了可导出的分析结果表。本文使用Python对词频表进行统计分析和画图。

4,修改历史

2021-06-02:第一版发布

5,版权说明

本notebook是GooSeeker大数据分析团队开发的,所分析的源数据是GooSeeker分词和文本分析软件生成的,本notebook中的数据和代码可自由共享使用,包括转发、复制、修改、用于其他项目中。

6,准备程序环境

导入必要的Python程序包,设定要分析的文件名变量。使用以下变量对应GooSeeker分词结果表:

  • file_sentiment:正文情感分析表
  • file_source: 原始内容表

【编程细节】本节下面的代码将对上述词频表名变量赋值

7,读取正文情感分析excel表

以下的演示以GooSeeker分词和文本分析软件生成的正文情感分析excel表为例,需要把正文情感分析表放到本notebook的data/raw文件夹下

8,读取原始内容表

9,合并两张表

在导出表中没有发布日期字段,那么就没法画走势图,所以,需要将原始数据表和情感分析结果表进行合并。可以用Pandas函数看每张表的结构,限于篇幅,本notebook不再展示查看表结构的函数。

下面的函数调用很简单,Pandas会根据两张表的相同字段进行匹配,把分析需要的发布日期合并进来。

10,统计正面评价,负面评价, 中性评价数量

11,生成饼图

12,生成时间序列图

13,生成柱状图

14,Jupyter Notebook下载

下载notebook源代码请点击:用python画情感分析结果走势图

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

发表评论

最新评论

评论 Fuller 2022-8-10 09:14
我一直在mac下使用,没有问题,就是在最近的Anaconda版本出现了一点配套问题,如果使用matplot,使用string_layout的时候,有可能会遇到。所以,我退到了Anaconda 2021年12月发布的那个版本了
gz51837844: 本notebook没有在mac系统上测试过。你可以到网上找一个mac安装最新版python的教程。安装完成后运行本notebook
评论 gz51837844 2022-8-10 08:54
是可以的,可以增加类似的功能,前提是导入分词软件做情感分析的源文件,应该有个日期时间的字段
13603357478: 我还想问一下可以做关键词的变化趋势吗!
评论 gz51837844 2022-8-10 08:52
本notebook没有在mac系统上测试过。你可以到网上找一个mac安装最新版python的教程。安装完成后运行本notebook
13603357478: 您好请问有适用于mac的教程吗
评论 13603357478 2022-8-10 06:28
我还想问一下可以做关键词的变化趋势吗!
评论 13603357478 2022-8-10 06:18
您好请问有适用于mac的教程吗
评论 gz51837844 2022-4-26 15:22
Timestamp应该是整形,不能做取前7位这种操作
17773376573: 请问在获取时间字段前七位时出现这样的错误:'Timestamp' object is not subscriptable
评论 17773376573 2022-4-26 14:33
请问在获取时间字段前七位时出现这样的错误:'Timestamp' object is not subscriptable
评论 gz51837844 2021-11-27 08:00
如果方便的话,可以把你的excel数据文件发过来,我们测试下。邮箱是:info@gooseeker.com
poppy21: 我的是苹果但是现在上面的案例是可以正常运行的,但是我自己用了自己的数据之后,就无法运行了,有比如日期不对等问题,反正最后还是无法成图 ...
评论 poppy21 2021-11-26 21:14
我的是苹果但是现在上面的案例是可以正常运行的,但是我自己用了自己的数据之后,就无法运行了,有比如日期不对等问题,反正最后还是无法成图
评论 gz51837844 2021-11-26 15:32
这篇教程是基于windows操作系统环境的,你是使用windows吗

查看全部评论(10)

GMT+8, 2024-10-11 14:41