快捷导航
从微博上采集到十几万条博文,现在需要做文本分类了,目标是划分出多个主题,请问集搜客的分词和分类检索平台可以做到吗?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-5-20 16:40

ym 版主 发表于 2020-5-20 16:28:18 | 显示全部楼层
本帖最后由 ym 于 2020-5-20 16:30 编辑

集搜客的分类功能,主要目的是按标签分类,通过把文本与特征词做匹配,匹配上的特征词就作为标签记下来,再根据标签词所对应的类别,把文本划分到对应的类别里。文本可以对应到多个标签词和多个类别,不是根据最大概率把文本划分到单个类别里。

比如,特征词是“快递”、“效率”,文本是“京东快递第二天就送到了,效率真快”,该文本同时匹配上这两个特征词,那么该文本的标签就会有“快递”“效率”,如果快递是属于物流类,效率属于服务类,那么该文本就会被划分到物流、服务两个类里。对于中长文本的多主题或多话题打标,可以实现很好的标签化效果。

标签分类的效果,很大程度上取决于特征词是否精准,特征词通常需要自己整理和维护更新,集搜客分为中心词、标签词、排除词三类匹配关系,利用好这些匹配关系,可以实现更好的标签化效果。
  • 中心词:必须匹配上的词语,可以不填,也可以是一个或多个中心词,多个中心词的话,要每一个词都匹配上才会对文本打上标签;
  • 标签词:可以不填,也可以是一个或多个词语,只要任意匹配上一个词语,就会对文本打上标签;
  • 排除词:可以不填,也可以是一个或多个词语,只要任意匹配上一个词语,就会过滤掉该文本;
QQ截图20200520162938.png
举报 使用道具
努力成为A 初级会员 发表于 2020-5-20 16:33:05 | 显示全部楼层
跟我需要的分类有些不同,我想要把一条博文分到唯一的类别里,有没有方法?
举报 使用道具
ym 版主 发表于 2020-5-20 16:40:35 | 显示全部楼层
努力成为A 发表于 2020-5-20 16:33
跟我需要的分类有些不同,我想要把一条博文分到唯一的类别里,有没有方法? ...

可以用机器学习或深度学习的分类模型来实现,不过有些难度,入门推荐看看下面这篇文章,对文本分类的流程和关键步骤讲解得比较清楚
《NLP入门——从0到实现文本分类》

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 12:36