集搜客分词软件的选词矩阵在哪里下载?

2025-9-10 11:36| 发布者: Fuller| 查看: 32| 评论: 0

摘要: 自2025年7月升级以来,集搜客分词软件不在云上提供选词矩阵的导出功能了,其他很多功能开始逐步移植到分词软件的扩展程序上。选词矩阵就是在转移之列,因为选词矩阵是基于机器学习的自然语言处理过程的关键数据,扩 ...

自2025年7月升级以来,集搜客分词软件不在云上提供选词矩阵的导出功能了,其他很多功能开始逐步移植到分词软件的扩展程序上。选词矩阵就是在转移之列,因为选词矩阵是基于机器学习的自然语言处理过程的关键数据,扩展功能主要提供基于机器学习的自然语言处理,在那里导出更合适。

下面将详细讲解怎样从分词扩展程序中导出选词矩阵表。跟导入的数据类型有关,存在两种情况:

  1. 用选词匹配表生成选词矩阵:特征提取是在集搜客分词软件上手工做的,选用哪些词有很高的把控度。
  2. 用原始文本数据生成选词矩阵:使用机器学习提供的自动的特征词提取功能,选用哪些词没有太好的把控度。

1. 进入LDA话题分析功能

目前只有LDA功能提供了生成选词矩阵。

1.1 进入分词扩展功能

必须在集搜客数据管家浏览器中进入分词扩展功能界面(没有安装集搜客数据管家的请下载安装:https://www.gooseeker.com/pro/gooseeker.html )。如下图,点击左栏菜单“聚类+其他”,就能进入分词扩展功能的首页,上面介绍了怎样安装扩展模块,按照步骤完成安装。安装过程也可以参考:https://www.gooseeker.com/doc/article-778-1.html

1.2 进入LDA功能

在扩展功能首页的左栏有菜单,点击LDA分析(如果第一次运行,会提示安装扩展模块。参看1.1,不再赘述)。在LDA分析页面上点击创建任务按钮,此时要导入数据,既可以导入原始数据表,也可以导入选词匹配表。假设导入选词匹配表,导入后的界面如下图,在这个界面上点击启动分析,就能到所需的选词矩阵表。

1.3 得到选词矩阵表

由于选词矩阵尺寸十分大,为了存取方便,该表存成了csv格式。存放在硬盘的如下位置:

上图中:

  • 测试lda-原始数据 :是LDA任务名,在导入数据的时候命名,每个任务都有一个目录
  • GooSeekerTag:是分词扩展程序的工作目录,如果没有特别配置的话,放在windows登录账号(上图登录账号是work)的主目录中。如果担心占用太多C盘空间,可以在集搜客数据管家的配置界面上修改存放位置。如下图:

1.4 转成Excel格式

如图3,如果导入选词匹配表,生成的选词矩阵名字是:选词匹配表_feature_freq_topic_10_lda_doc_word.csv

其中:

  • doc_word:表示 文档-特征词 矩阵
  • topic_10:表示执行LDA分析的时候,目标是分析成10个话题

打开Excel,选择 数据->从文本/csv 按钮,在提示框中选择上述csv文件,最后点击“加载”按钮,就能打开csv文件。如果觉得使用excel格式文件更加方便,可以另存一份excel格式的文件。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2025-9-10 15:57