快捷导航

集搜客文本分词标注工具使用指南5-如何使用打标结果

2016-11-15 16:24| 发布者: ym| 查看: 552| 评论: 0

摘要: 六、如何使用打标结果 用文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。 1、标签词库 统计频数,计算权重,进行 ...

六、如何使用打标结果

文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。

1、标签词库

统计频数,计算权重,进行特征抽取,找出能够反映主题的特征。注意:输出的词频是计算原数据分词后该词语出现的次数,是按词语为单位的,如果想统计在原数据中包含该词的数据条数,即以文本数据为单位,就需要重新计算频数;大家可以对标签词做进一步的文本分类,可以形成某领域内的分类器,也有利于特定主题的统计分析;


2、情感词库

标签词+情感词+调性的组合通常可以结合原数据来分析用户态度,会涉及到一些计算甚至是数学建模,具体计算是要根据研究目的进行,这里就不详述,这也是研究用户偏好、精确量化用户意见及潜在意愿的有效办法,也是支持产品改进、商业决策的有效途径。


3、打标结果表

这个是把标签词和情感词与原数据匹配的结果,不包括没有匹配到的原数据。一个标签词会对应多条文本数据,一条文本数据也可能会包含多个标签词,有的文本数据只匹配到标签词,却没有情感词。可以用来计算用户态度。


4、分词结果表

这是把原数据做词语切分后的结果,以空格为间隔,可以研究分词效果以及词频统计。


若有疑问可以集搜客爬虫软件

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-28 08:33