GooSeeker中文分词和情感分析软件可以导出哪些数据格式类型? ... ...

2023-11-3 11:27| 发布者: Fuller| 查看: 2377| 评论: 0

摘要: GooSeeker中文分词和情感分析软件是很多科研工作者的好帮手,比如很多大学生在写论文的过程中,使用这些导出的结果表,excel格式:词频表,分词效果表,选词结果表,选词匹配表,选词矩阵表,共词矩阵表,情感分析结 ...

在近期发布的《如何采集微博博主主页并生成共现矩阵用于Gephi社会网络分析》和《社交媒体话题文本分词后用sklearn的kmeans算法做聚类分析》等文章和实验中,我们使用从GooSeeker中文分词和情感分析软件导出的分词结果或者矩阵数据,很方便的导入Gephi或者在Jupyter Notebook中进行网络布局和算法实验。

GooSeeker中文分词和情感分析软件自发布后,经过多次的软件功能升级,目前已经成为了很多科研工作者的好帮手,比如很多大学生在写论文的过程中,都使用了此软件的中文分词/情感分析/共词矩阵分析功能来提高科研的效率以及从不同的角度进行分析。

历经多次功能升级,分词工具的导出文件也相应的有变化,我们今天就对当前版本的分词工具每种可以导出的数据都再说说:

能够导出的结果表,excel格式

  • 词频表
  • 分词效果表
  • 选词结果表
  • 选词匹配表
  • 选词矩阵表
  • 共词矩阵表
  • 情感分析结果表-正文情感分析
  • 情感分析结果表-句子情感分析

能够生成的图,可供下载:

  • 词云图
  • 共词网络分析图
  • 情感占比图

1. 导入数据的格式

在介绍有哪些导出格式前,先简单说一下导入格式。在创建分词任务时,导入的excel表格式如下图所示:

excel最左边的2列“序号”和“正文”是必须有的,其它的列是可选的。其中“正文”字段的内容就是要进行中文分词和分析的文本。

创建任务后,分词软件对“正文”就会自动分词和统计词频,其它的功能比如人工选词、情感分析、社会网络分析等则可以根据自己的需要进行操作。

下面重点讲讲GooSeeker分词和情感分析软件能够产生哪些结果,有哪些导出格式。

2. 导出界面

2.1 分词、选词、矩阵结果导出界面

2.2 情感分析结果导出界面

3. 导出的结果表

3.1 词频表

词频表里记录了分词后的所有词的记录,每行是一条记录,包含:

  • 标签词:就是对正文分词后得到的每个词
  • 词频:该词在整个导入文件中出现的次数
  • 文档频率:该词在整个导入文件中出现在了几篇正文中
  • 词性:词性,比如名词、动词、形容词等。

3.2 分词效果表

分词效果表以导入时的正文为单位,每条正文一行,和导入文件是一一对应的。包含:

  • 原数据:也就是导入文件中的正文字段
  • 分词数据:每条正文分词得到的所有词,以空格分隔
  • 关键词:软件自动提取的关键词,是“分词数据”中所有词的一个子集
  • 序号:也就是导入文件中的序号字段

3.3 选词结果表

原始分词结果包含所有的词,有很多词对我们当前分析没有什么意义,或者会干扰分析。所以很多情况下,我们会对分词后的结果进行选词。

在对分词任务进行了人工选词后,此结果表才可以导出。

此结果表的结构和词频表一样,不同的是记录的词是经过选词筛选后的词。包含:

  • 标签词:就是对正文分词后进行选词后的每个词
  • 词频:该词在整个导入文件中出现的次数
  • 文档频率:该词在整个导入文件中出现在了几篇正文中
  • 词性:词性,比如名词、动词、形容词等。

3.4 选词匹配表

在对分词任务进行了人工选词后,此结果表才可以导出。包含:

  • 序号:和导入文件中的序号一样
  • 原数据:和导入文件中的正文一样
  • 打标词:该正文中包含的所有的选词,以逗号分隔

3.5 选词矩阵表

在对分词任务进行了人工选词后,此结果表才可以导出。包含:

  • 序号:和导入文件中的序号一样
  • 正文:和导入文件中的正文一样
  • 该正文中包含的所有的选词每个词1列: 
    • 如果值为1,表示该词在正文中出现。
    • 如果值为0,表示该词在正文中没有出现

3.6 共词矩阵表

在对分词任务启用了共词矩阵运行后,此结果表才可以导出。

每个词会占据一行,每个词也会占据一列,行列交会的值就是行和列的2个词同时出现的正文的个数。 

3.7 情感分析结果表-正文情感分析

在对分词任务启用了“情感分析”运行后,此结果表才可以导出。

该结果表以导入时的“正文”为单位,每行“正文”为一行,列出了该“正文”文本里含有的:正面词,负面词,程度词,否定词,正面句子数,正面得分,负面句子数,负面得分,总得分

3.8 情感分析结果表-句子情感分析

在对分词任务启用了“情感分析”运行后,此结果表才可以导出。

该结果表以导入时的“正文”包含的每个句子为单位,每个“句子”为一行,列出了该“句子”文本里含有的:情感倾向,正面词,负面词,程度词,否定词

4. 生成可供下载的图

4.1 词云图

在对分词任务进行了人工选词后,才可以查看和导出词云图。

 4.2 共词网络分析图

在对分词任务启用了共词矩阵运行后,才能查看和导出网络分析图

4.3 情感占比图

在对分词任务启用了“情感分析”运行后,才能导出情感占比图。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-5-9 18:14