用集搜客分词软件,我发现里面的 非常好 ,非常不好 这样的词都被切开了,像这样,非常 不 好。能不能通过添加我要的词,确保不被切开?

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-12-4 01:30

Fuller 管理员 发表于 2020-10-28 09:34:05 | 显示全部楼层
添加词语20201028093023.png

集搜客分词和文本分析软件已经考虑了新加词的问题,而且可以精准匹配。

在选词结果、打标结果、分词效果页面上都有加词按钮,可以输入一些很特别的词,比如,人名,地名,短语。

集搜客分词软件通常使用中文自动分词技术就行切词,有些不常见的词,很容易被切开。通过添加新词,可以让分词软件精确匹配新加词。这样就可以处理一些特殊词和短语
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2020-10-28 09:34:36 | 显示全部楼层
我看到情感分析那里也有加词,是不是一样的?
举报 使用道具
Fuller 管理员 发表于 2020-10-28 09:36:34 | 显示全部楼层
发誓学好内容分析 发表于 2020-10-28 09:34
我看到情感分析那里也有加词,是不是一样的?

情感分析不一样,在情感分析那里可以编辑词库,但是,有时候效果不好。比如,加入 非常不好 这个词,一般会被切开的,情感分析是完全基于概率进行判断的。如果新加的词属于概率词库中的词,那么情感分析就会使用这个词,如果不属于词库的,还是会被切开分析
举报 使用道具
wyl123wyldashabi 新手上路 发表于 2020-12-3 23:04:04 | 显示全部楼层
【选词结果】中的【添加词语】是添加【原数据】中的词语,即未分词前的专有名词吗?还是添加分词后的词语?因为有需要用的专有名词被分开了。
举报 使用道具
wyl123wyldashabi 新手上路 发表于 2020-12-3 23:06:48 | 显示全部楼层
wyl123wyldashabi 发表于 2020-12-3 23:04
【选词结果】中的【添加词语】是添加【原数据】中的词语,即未分词前的专有名词吗?还是添加分词后的词语? ...

而且我试了一下,添加词语后,专有名词的频数是0唉
举报 使用道具
Fuller 管理员 发表于 2020-12-4 01:30:13 | 显示全部楼层
wyl123wyldashabi 发表于 2020-12-3 23:04
【选词结果】中的【添加词语】是添加【原数据】中的词语,即未分词前的专有名词吗?还是添加分词后的词语? ...

那些被切开的专有名词可以用作添加词语,应该是能匹配出来的。如果遇到不能匹配的,给个例子:1,要分词的文档;2,要识别的专有词。我们测试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:57