集搜客GooSeeker网络爬虫

标题: 集搜客分词软件和情感分析软件是否可以添加新词? [打印本页]

作者: 发誓学好内容分析    时间: 2020-10-28 09:29
标题: 集搜客分词软件和情感分析软件是否可以添加新词?
用集搜客分词软件,我发现里面的 非常好 ,非常不好 这样的词都被切开了,像这样,非常 不 好。能不能通过添加我要的词,确保不被切开?


作者: Fuller    时间: 2020-10-28 09:34
[attach]13202[/attach]

集搜客分词和文本分析软件已经考虑了新加词的问题,而且可以精准匹配。

在选词结果、打标结果、分词效果页面上都有加词按钮,可以输入一些很特别的词,比如,人名,地名,短语。

集搜客分词软件通常使用中文自动分词技术就行切词,有些不常见的词,很容易被切开。通过添加新词,可以让分词软件精确匹配新加词。这样就可以处理一些特殊词和短语

作者: 发誓学好内容分析    时间: 2020-10-28 09:34
我看到情感分析那里也有加词,是不是一样的?
作者: Fuller    时间: 2020-10-28 09:36
发誓学好内容分析 发表于 2020-10-28 09:34
我看到情感分析那里也有加词,是不是一样的?

情感分析不一样,在情感分析那里可以编辑词库,但是,有时候效果不好。比如,加入 非常不好 这个词,一般会被切开的,情感分析是完全基于概率进行判断的。如果新加的词属于概率词库中的词,那么情感分析就会使用这个词,如果不属于词库的,还是会被切开分析

作者: wyl123wyldashabi    时间: 2020-12-3 23:04
【选词结果】中的【添加词语】是添加【原数据】中的词语,即未分词前的专有名词吗?还是添加分词后的词语?因为有需要用的专有名词被分开了。
作者: wyl123wyldashabi    时间: 2020-12-3 23:06
wyl123wyldashabi 发表于 2020-12-3 23:04
【选词结果】中的【添加词语】是添加【原数据】中的词语,即未分词前的专有名词吗?还是添加分词后的词语? ...

而且我试了一下,添加词语后,专有名词的频数是0唉

作者: Fuller    时间: 2020-12-4 01:30
wyl123wyldashabi 发表于 2020-12-3 23:04
【选词结果】中的【添加词语】是添加【原数据】中的词语,即未分词前的专有名词吗?还是添加分词后的词语? ...

那些被切开的专有名词可以用作添加词语,应该是能匹配出来的。如果遇到不能匹配的,给个例子:1,要分词的文档;2,要识别的专有词。我们测试一下





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2