分词和分类检索平台使用手册

2019-9-16 15:06| 发布者: ym| 查看: 15211| 评论: 6

摘要: 在2019年8月,我们发布了第3版分词打标软件,增加了可以像搜索引擎那样检索和查看数据的分类检索功能模块,分词选词模块则做了一些优化,下面介绍了基本操作,希望大家能借助这个工具,发掘出数据的价值。1.新建任务 ...

在2019年8月,我们GooSeeker团队发布了第3版分词打标软件,即现在的分词和分类检索平台,在原来文本分词处理的基础上,增加了可以像搜索引擎那样检索和查看数据的分类检索功能模块,分词选词模块则做了一些优化,下面介绍基本操作,希望大家能借助这个工具,发掘出数据的价值。

1.新建任务

1.1.在【我的任务】里,通过【新建任务】,导入要做分词处理或者是要分析的数据文件。

1.2.如果是导入Excel的话,序号和正文两列是必须要有的,其他列可以没有;注意单个文件不要超过10M大小,超过的话需要分成多个文件导入。


2.分词选词

2.1.这里会把“正文”一列进行分词。在【分词选词】->【筛选词语】页面上,词语会按词频从大到小排序,勾选会用到的词语,具体选哪些词语要根据研究主题来定,每一页选完点击【确定】提交就会切换到下一页。

tips:点击词语,在右侧就会看到包含该词的数据,点击右侧数据会弹窗显示完整内容,这样就能边看数据边选词。

2.2.在【选词结果】中查看结果,如果需要补充词语,可以直接点【添加词语】来补充,或者回到筛选词语那里勾选。


3.下载分词选词的数据

3.1.选完词语后,在选词结果或打标结果或分词效果的页面上,点击【下载】按钮,就能下载到分词选词的数据压缩包。

tips:有选词的话,数据包里会有切词表、分词效果表、选词结果表、打标结果表四张表;没有选词的,下载就只有切词表、分词效果表,没有选词结果表和打标结果表。

(1)切词表

(2)分词效果表

(3)选词结果表

(4)打标结果表

3.2.在打标结果页面上,点击【下载匹配矩阵表】按钮,可以下载到正文与所选词语的匹配对应关系表。

(5)匹配矩阵表(表里的正文与词语如果匹配上就会标记1,没匹配上标记为0)

3.3.在分词效果页面上,点击【下载打标匹配表】按钮,下载到打标匹配表。

(6)打标匹配表


4.分类检索

4.1.前面新建任务所导入的数据,在【分类检索】中可以像搜索引擎那样进行搜索查看,也可以进行收藏,收藏后在【收藏管理】里查看和导出。

4.2.如果您在【分类管理】中创建领域->主题->标签词三级分类结构,系统会自动把正文与标签词做匹配,再关联主题和领域进行分类。

tips:可以把前面分词选词所下载到的选词结果表进行分类整理,也可以通过其他方式整理到Excel表里,然后【批量导入】即可。

然后在【分类检索】->【关注】里,就可以对分类匹配到的数据进行筛查,还可以导出分类数据表。

(7)分类数据表


5.关于任务管理

5.1.切换任务

在导航栏,可以选择其他任务,也可以输入任务搜索来切换。

5.2.导入数据

在除“我的任务”外的每一个菜单中都有【导入数据】按钮,通过它可以导入新数据到当前任务里。

5.3.删除任务

在【我的任务】里,选中任务的【删除】按钮,就可以删除该任务。

6.下载到的数据怎么用

前面下载到的数据,可以用于进一步的统计分析、数据建模、情感分析等,我们发布了一些数据的分析案例,大家感兴趣的可以到《GooSeeker分词和分类检索平台使用攻略》里查看。

37

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (37 人)

相关阅读

发表评论

最新评论

评论 Fuller 2024-3-11 23:38
你在哪里看到的“主题词”这个词?分类的时候,要配置“中心词”或者“标签词”,还有“排除词”。没有“主题词”,所谓的“主题”,就是第二级分类。可以规定两级分类,第一级分类我们称谓“领域”,第二级分类我们成为“主题”。为“主题”配置“中心词”或者“标签词”,还有“排除词”
isaacyeh: 主题词和标签词有啥区别
评论 isaacyeh 2024-3-11 22:37
主题词和标签词有啥区别
评论 youngcy 2022-10-31 17:26
niu bi
评论 maomao 2022-4-25 20:37
厉顾: 分词的时候不能添加新词汇啊,有的分词不标准。比如太和殿被分为太和 殿。
在选词界面上可以加词调效果
评论 厉顾 2022-4-25 19:02
分词的时候不能添加新词汇啊,有的分词不标准。比如太和殿被分为太和 殿。
评论 ZHAOlion1980 2021-6-26 13:35

查看全部评论(6)

GMT+8, 2024-10-4 19:30