GooSeeker分词、情感分析和文本分析平台简介

2026-2-21 11:07| 发布者: Fuller| 查看: 15| 评论: 0

摘要: GooSeeker分词和文本分析平台是专门为高校师生和研究机构开发的文本内容分析工具。尽量做到0技术门槛,免去编写Python程序的麻烦。研究人员应专注于内容的分析和观察,导入数据后就可导出需要的数据表和观察生成的图 ...

GooSeeker分词和文本分析平台是专门为高校师生和研究机构开发的文本内容分析工具。尽量做到0技术门槛,免去编写Python程序的麻烦。研究人员应专注于内容的分析和观察,导入数据后就可导出需要的数据表和观察生成的图表。

从集搜客数据管家软件V15版本开始,利用python对分词功能进行扩展,引入了机器学习算法,可以做LDA、聚类、深度学习等运算。

1. 功能简介

GooSeeker分词和文本分析平台目前有两大部分组成

1. 基础功能:从上述链接进入以后,首先看到的基础功能部分。该部分功能运行在GooSeeker服务器上,所以是免安装的,导入数据就能看到分析结果。

2. 扩展功能:从基础功能的左栏菜单“聚类+其他”进入扩展功能。扩展功能都是利用机器学习、深度学习和其他统计算法实现的,需要安装扩展模块到自己的电脑上。在扩展功能首页上有安装方法。

有些功能是重叠的。下表做一个对比:

基础功能扩展功能
分词算法中文分词jieba中文分词 和 spacy中英文双语分词
词性标注中文词性标注中文和英文词性标注
情感分析基于词典的情感分析基于词典的情感分析(开发中)和基于深度学习的情感分析
情绪分析基于词典的情绪分析基于词典的情绪分析(开发中)
共词关系图按共现次数剪枝按共现次数剪枝和按信息量剪枝(开发中)
词云图支持支持
聚类分析不支持支持
LDA主题分析不支持支持

2. 能够导出的数据表

GooSeeker分词和文本分析平台就像一台机器,喂进去原始文本数据,加工出来各种数据表,供用户做进一步统计分析。

a,词频表:所有词的词性和词频。不需要额外操作,导入数据后,就会自动分词,完成后就能导出该表

b,分词效果表:用空格分隔句子中的词。也不需要额外操作,这是自动分词的结果。

c,句子表:(扩展功能才有)将导入的文本切分成句子

d,选词结果表:需要先手工选词才能导出该表。通过人工选词,可以最精准的选择符合分析目的的词语,弥补自动提取特征词的不精准的不足。

e,选词匹配表:也需要先筛选词语,展示所选词与句子的对应关系

e,选词矩阵表:也需要先选词,与选词匹配表不同,所选词并不是放在一起,而是每个词独自占一列,方便统计运算

f,共词矩阵表:也需要先选词,行和列都是所选词,构成一个四方矩阵,数字是两个词同时出现的句子数。

g,情感分析表:需要先执行情感分析才能导出该表。把含有情感倾向的句子罗列出来,标明情感打分和倾向。

h,聚类分析结果表:该表展示每条文本所归属的类别

i,LDA主题分析结果表:这是一组表,LDA模型和NMF模型的导出结果还有些不同。主要有:

1,文本-话题矩阵

2,话题-特征词矩阵

3,可视化html文件

3. 分析结果图

a,词云图:筛选词语以后才能生成词云图

b,共词关系图:像一个社交关系图,描述了两个词同时出现的情况,可以利用社交关系分析算法做进一步分析

c,聚类特征词图

d,降维后的聚类数据分布图

e,LDA主题特征词图

f,LDA模型搜索图

g,LDA主题分布图

4. 更多资料和论坛

进一步的讲解和用户讨论可以参看帖子:GooSeeker分词,情感分析和关键词抽取平台使用攻略


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2026-2-21 13:13