|
集搜客的分词工具在这里:https://www.gooseeker.com/res/softdetail_13.html
这个网页上有介绍,很容易使用,不用看教程。
分词工具分词过程是自动的,只要导入文件就启动分词。分完词,需要你手工选择用于分析的特征词,相当于划定一个分析范围。如果不选特征词也行,相当于要分析所有词。但是在量化计算的时候,没有必要使用所有词,因为很多词是没有意义的,而且很多软件也算不了那么多词,通常选择200多个就够了,按照词频的排序,把前200个有意义的词选出来,就能导出一个词矩阵,每一条内容对应哪几个词,就在这个矩阵中。
提到矩阵,我们说“一条”对应哪些词,这就隐含了一层意思:用词矩阵适合分析短文本,比如,用户评论,一条条的评论,看看分别含有哪些词。如果是长文本,甚至就是一个文本文件导入到分词工具中,那么生成矩阵没有意义,不叫矩阵,因为只有一行。那样只能做些基于词频的分析,比如,生成一个词云图之类的
|
|
共 4 个关于本帖的回复 最后回复于 2019-4-24 09:39