快捷导航

ROST-CM软件分词和词频统计用法体验

2018-4-28 19:44| 发布者: Fuller| 查看: 1311| 评论: 0

摘要: GooSeeker分词工具在开发过程中,参考学习了多个优秀的分词软件,其中就有ROST-CM内容挖掘软件。本文专门针对分词这一个功能专项,对比一下ROST和集搜客分词软件的不同 ...

前面的文章我们专门讲过,为了给没有深厚的计算机基础的研究者使用,GooSeeker分词工具在开发过程中,参考学习了多个优秀的分词软件,其中就有ROST-CM内容挖掘软件。本文专门针对分词这一个功能专项,对比一下ROST和集搜客分词软件的不同。

ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中“分词”功能也是广为使用的。我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是用哪一款分词软件,也都有可能出现分词结果中没有你想要的那个词,即使这个词确实是在文本中存在的。下面我们主要讲解分词的操作过程和自定义词的添加过程。

下面我通过实际应用场景来说明一下,前面我的一篇文章《毕业论文写什么——微博数据挖掘相关的论文》其中有一块分析,专门对微博数据挖掘相关的论文的标题做了分词和统计分析,就用到了分词处理功能。本文还是以那个数据集为例进行讲解。

数据:知网微博数据挖掘研究分析-“论文主题”字段数据

数据进行共享了,有兴趣的话可以自己试验一下。

1,用ROST进行分词处理

在我们常见的研究场景中,分词以后基本上都要做词频统计,所以我们考察 “分词-词频统计”联合在一起的操作过程。下面的操作过程可以看到,ROST把这两个过程明确分开,要做两步

1.1,用ROST进行分词

ROST不支持对excel文件进行分词,所以先将刚刚的实验数据复制到txt文档中,如下。

选择“功能性分析” > "分词”,将刚刚准备的txt文档导入后点击“确定”。

ROST分完词之后会自动将分词结果打开,文件储存在分词文件所在的路径中,可以看到结果已经进行分词了。

1.2 用ROST进行词频分析

接着我们要将分词处理后的文档进行词频分析,选择“功能性分析” > "词频分析(中文)”,将刚刚分词后的txt文档导入后点击“确定”。

当然,在点击“确定”之前你可以进行如下设置:

  • “启用过滤词表”、“启用归并词群表”、“启用保留词表”默认是勾选的
  • “不输出词频”默认是不勾选的,勾选了的话那么最后的结果文档中只有一个词频文本结果,不会有相应的词频展示
  • 对输出文本的长度进行设置
  • 对输出文本的数量进行设置,默认是只输出词频统计排名前300的词语

词频分析完后结果还是会默认展示出来。

1.3 用ROST添加自定义词

浏览了一圈之后(或者是CRTL+F调出搜索台进行搜索)发现并没有诸如“社会网络分析”、“社会网络、“数据挖掘”这些我理想的分词结果啊。

回到文章刚开始提到的“词库”,因为ROST“词库”里头没有这些词语,所以它的分词结果以及词频统计中没有这些词,如果希望ROST能将分词中包含这些词,就要补充这个“词库”,这样我们就可以自定义词组了。

ROST的自定义词添加过程有些复杂,如果对自然语言处理(NLP)技术有研究的读者可以看出来,ROST添加的自定义词放在专门一个词表中,会用在后续的分词和词频统计中。

首先,我们先通过ROST来自定义词组,要补充ROST的“词库”,找到“user”文件夹下的“user.txt”文档,将要补充的词在后面补充即可。

这里我补充了“社会网络”、“社会网络分析”、“数据挖掘”这三个词语。

然后重复刚刚的“分词 > 词频统计"步骤,可以看到最后词频统计结果中出现了刚刚添加的这三个词语,说明ROST识别到了词库的更新。

ROST对这三个词的词频统计结果分别是:

  • 社会网络:67
  • 数据挖掘:51
  • 社会网络分析:25

2,用集搜客进行分词处理

2.1,用集搜客进行分词和词频统计

接着用集搜客分词软件进行分词,前面我们说过,在研究了多个优秀分词软件以后,希望开发出一款简单易用的软件,即使计算机基础很薄弱,都可以做分词和统计分析。所以,分词-词频统计 是一步到位的,甚至都可以用集搜客的微信小程序——分词作业帮,在手机上完成这个工作。

进入该分词软件之后先导入实验数据,这里以excel格式文件为例,集搜客分词软件支持Excel、PDF、Word、txt,而且可以通过微信小程序把收到的文件直接导入到集搜客分词系统中。

导入之后产生一个分词任务,可以在“我的任务”中看到。如果进入“筛选词语”页面,就可以看到分词产生的词语已经按照词频高低进行了排序。

此时,可以直接进入后面的三个页面(选词结果、打标结果、分词结果)中的任何一个导出分词结果。导出的结果是一个ZIP文件,最多含有四张表,有

  • 分词效果表:一行原始内容对应一行经过分词的内容

  • 打标结果表:如果筛选了词语,就有这种表,把每条原始内容含有的词语罗列出来
  • 切词表:就是通常所说的词频表

  • 选词结果表:跟切词表一样的结构,但是只有筛选过的词,如上图,很多高词频的词是无助于分析的,甚至会干扰分析结果

可见,一个导入操作就可导出词频表。

集搜客分词打标工具的特色从第二个网页“筛选词语”开始,我们知道,在一篇文章中,可能大量的高频词是没有分析价值的,那么集搜客分词打标工具允许用户手工筛选词语,只保留研究课题相关的词。筛选词是按照词频排序的,因为词语的频率越小,它其实分析的价值可能越小(不总是正确,按照流行的搜索算法,少见的词含有的信息量可能更大),而词频排在TOP前面的才是用户需要分析的对象,所以把前面筛选完以后,后面的可以不用看了。

来到第三页“选词结果”,我们已经手工选出来的课题相关的词有哪些,他们对应的例句是什么。
如果再看“打标结果”和“分词效果”两个页面,是比较独特的,一句话出现了哪些特征词,都罗列出来。如果执行导出,可以把句子和词表的对应矩阵导出来,可用于向量空间计算。

2.2 用集搜客添加自定义词

在选词结果、打标结果和分词效果页面上,都可以手工添加词语,集搜客的添加词语就是添加词语,不用管系统的词库,就是把漏掉的词补充到分词结果中,所以,只管添加好了,添加以后立即生效,会自动把含有这个词的句子匹配出来,形成分词效果对应关系。

例如,发现集搜客分词结果中也没有“社会网络”、“社会网络分析”、“数据挖掘”这三个词语。

下面看下这三个词的词频统计结果,分别是:

  • 社会网络:91
  • 数据挖掘:50
  • 社会网络分析:25


3,词频统计对比

通过对比,ROST和集搜客的词频统计结果不同。

下面进行验证一下。

通过对比,集搜客分词软件的分词准确率比较高


鲜花

握手

雷人

路过

鸡蛋

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-8-14 19:14