集搜客GooSeeker网络爬虫

标题: 集搜客文本分词标注工具(V1版) [打印本页]

作者: ym    时间: 2016-11-15 10:55
标题: 集搜客文本分词标注工具(V1版)
注意:本文是老版集搜客分词软件的文档,老版软件已下线,请阅读新版(V2版)集搜客分词和文本分析软件的教程和使用攻略

集搜客文本分词标注工具是由GooSeeker技术团队研发的,用于文本自动分词、文本标签提取的打标工具,本工具的发展过程是:
第一版:于2016年11月15日上线,
第二版:于2018年3月15日上线,对界面和用户体验做了改进,删除了情感词筛选功能。
第三版:于2020年6月15日上线,全面更改用户界面,用户体验更好。并且在增强版网络爬虫-数据管家软件增加了进入分词工具的快捷按钮,两个软件融为一体

新用户可以免费试用7天。使用网址
http://www.gooseeker.com/res/softdetail_13.html

工具介绍:
1. 支持中英文自动分词
导入数据后就自动切分句子中的中英文词语,分词精准让您事半功倍。

2. 支持特征词提取、情感词识别
提取特征词,便于进一步的文本分类,识别情感词后会对原数据全量匹配,为您省去大量烦琐工作。

3. 输出多个数据表,可做深入的统计或建模
输出标签词表、情感词表、原数据的打标结果表、原数据的分词结果表,无论是热词分析、文本分类、语义分析,还是建模统计,都能完美胜任。

使用指南:
集搜客文本分词标注工具使用指南1-导入数据
集搜客文本分词标注工具使用指南2-筛选标签词
集搜客文本分词标注工具使用指南3-识别情感词
集搜客文本分词标注工具使用指南4-下载打标结果
集搜客文本分词标注工具使用指南5-如何使用打标结果







作者: ym    时间: 2016-11-15 11:16
欢迎大家试用体验,有问题都可以评论反馈
作者: shenzhenwan10    时间: 2016-11-15 11:19
试下对微博评论分词打标
作者: 84479774    时间: 2016-11-20 09:17
正在测试微博内容 期待中
作者: Fuller    时间: 2016-11-20 10:09
84479774 发表于 2016-11-20 09:17
正在测试微博内容 期待中

新产品上线,有什么问题提出来大家一起讨论改进

作者: linteck    时间: 2016-12-23 10:57
EXCEL文件是怎么生成的?
作者: Fuller    时间: 2016-12-23 11:37
linteck 发表于 2016-12-23 10:57
EXCEL文件是怎么生成的?

你是说这个分词工具生成的excel?这是我们程序生成的

作者: lilyzoo    时间: 2017-3-29 16:02
请问标签词和情感词有什么不一样?
作者: xandy    时间: 2017-3-29 16:09
lilyzoo 发表于 2017-3-29 16:02
请问标签词和情感词有什么不一样?

对词语进行分词打标之后,你可以对一些任何词语进行打标签,但是基于分析的目的,一般将名词进行打标,比如“电池”,而情感词的话是带有情感色彩的词语,一般是形容词,比如说“散热慢”,标签词+情感词的组合可以对文本进行分析。
作者: lilyzoo    时间: 2017-3-29 16:11
xandy 发表于 2017-3-29 16:09
对词语进行分词打标之后,你可以对一些任何词语进行打标签,但是基于分析的目的,一般将名词进行打标,比 ...

标过的词可不可以撤回

作者: xandy    时间: 2017-3-29 16:18
lilyzoo 发表于 2017-3-29 16:11
标过的词可不可以撤回

可以

作者: lilyzoo    时间: 2017-3-29 18:41
xandy 发表于 2017-3-29 16:09
对词语进行分词打标之后,你可以对一些任何词语进行打标签,但是基于分析的目的,一般将名词进行打标,比 ...

副词、虚词、有多义的词被自动分词的给隔开了怎么办

作者: Fuller    时间: 2017-3-29 18:52
lilyzoo 发表于 2017-3-29 18:41
副词、虚词、有多义的词被自动分词的给隔开了怎么办

因为使用了开源的分词器,很多词可能会出现识别不了就会被分开,目前这个问题解决不了,因为是分词器的限制。只能人工对分词结果做些纠错

作者: lilyzoo    时间: 2017-3-31 21:08
请问怎么得到分词以后整句话的调性数据?
作者: Fuller    时间: 2017-3-31 21:50
lilyzoo 发表于 2017-3-31 21:08
请问怎么得到分词以后整句话的调性数据?

这个软件只是一个辅助工具,可以为调性分析准备特征词和调性词,也可以用来准备机器学习训练用的语料。

这个工具只是方便你摘取特征词和调性词。如果要做调性分析,需要你自己实现分析算法。调性分类比普通的文本分类要复杂很多。比如,你可能先要确定是做语句级调性分析,还是做文档级分析。如果是语句级,那么还要把句子界定出来。另外,调性词是与特征词关联在一起分析的,还有极性反转,还有多重否定,还有代词的处理,还有比较句等等,都要考虑

作者: Gary985    时间: 2017-4-13 16:53
简单用了一下,很可以。不知道是否可以进一步?!
作者: Fuller    时间: 2017-4-13 17:07
Gary985 发表于 2017-4-13 16:53
简单用了一下,很可以。不知道是否可以进一步?!

关于进一步处理,你有什么建议?

作者: Gary985    时间: 2017-4-13 17:30
Fuller 发表于 2017-4-13 17:07
关于进一步处理,你有什么建议?

您有QQ或微信么?可以单聊。希望可以交流一下。

作者: Fuller    时间: 2017-4-13 18:10
Gary985 发表于 2017-4-13 17:30
您有QQ或微信么?可以单聊。希望可以交流一下。

我的qq是 1216257115

作者: Ellenzhang1991    时间: 2017-4-27 02:32
为什么买了后登陆显示用户名或密码错误
作者: Fuller    时间: 2017-4-27 08:30
Ellenzhang1991 发表于 2017-4-27 02:32
为什么买了后登陆显示用户名或密码错误

稍后会有技术支持和你联系。请加 官方定制QQ号: 2019907223

作者: 集搜客    时间: 2017-4-27 10:32
Ellenzhang1991 发表于 2017-4-27 02:32
为什么买了后登陆显示用户名或密码错误

现在可以正常登录了吗?给您的邮箱发了一份邮件


作者: lilyzoo    时间: 2017-5-13 16:07
Fuller 发表于 2017-3-31 21:50
这个软件只是一个辅助工具,可以为调性分析准备特征词和调性词,也可以用来准备机器学习训练用的语料。

...

你们过滤的词库是什么?有没有停用词表?

作者: maomao    时间: 2017-5-13 16:19
lilyzoo 发表于 2017-5-13 16:07
你们过滤的词库是什么?有没有停用词表?

没有停用词表,目前所用的词库比较小,有些词会切开。这个工具主要是用来辅助做特征词筛选的,在分词精度,以及一些高级功能方面比较弱。如果发现分词的时候把某些切开了,要手工录入完整的词

作者: huangqianzhi    时间: 2017-7-7 10:31
看到有分词功能,可以进行词性标注吗?
作者: shengchengx    时间: 2017-7-7 10:33
huangqianzhi 发表于 2017-7-7 10:31
看到有分词功能,可以进行词性标注吗?

可以进行的


作者: louiselana    时间: 2017-10-31 15:26
请问教程在哪里?
作者: 嘉兴    时间: 2017-10-31 15:37
louiselana 发表于 2017-10-31 15:26
请问教程在哪里?

使用的时候每一步都有提示,跟着提示做就行了

作者: Fuller    时间: 2017-10-31 16:46
huangqianzhi 发表于 2017-7-7 10:31
看到有分词功能,可以进行词性标注吗?

自动的词性标注功能是没有的,这跟自然语言处理平台不一样,没有那么全的处理能力。这个系统是在分词基础上给用户一个筛选关键词的操作界面,然后系统根据用户筛选的关键词,对每个语句进行标记,表示是否含有某个词

作者: tanfyo    时间: 2017-11-7 11:42
不习惯
作者: tanfyo    时间: 2017-11-7 11:43
测试下
作者: goufourfour    时间: 2017-12-18 11:15
使用效果不好
作者: 数据集二期    时间: 2017-12-18 11:30
goufourfour 发表于 2017-12-18 11:15
使用效果不好

使用过程中有什么问题吗?文本分词标注工具会不断更新,有什么建议可以提出来,我们会进一步更新完善。

作者: sherryalicewang    时间: 2018-1-4 18:38
登陆总是说我用户名密码错误

作者: Fuller    时间: 2018-1-4 19:33
sherryalicewang 发表于 2018-1-4 18:38
登陆总是说我用户名密码错误

登录的时候,用账号名,不用邮箱,试试有没有问题

作者: Fuller    时间: 2018-1-4 19:35
如果问题还解决不了,加入qq群,让技术支持在线协助一下。qq群是:GooSeeker集搜客爬虫② 470506980
作者: 米粒儿    时间: 2018-3-4 20:29
这个文本处理这里有没有教程啊
作者: maomao    时间: 2018-3-4 21:09
米粒儿 发表于 2018-3-4 20:29
这个文本处理这里有没有教程啊

这个软件登录以后,在最顶上有个使用指南连接
[attach]8844[/attach]
请注意,这个软件即将升级到V2版,将有更好的使用体验,敬请关注

作者: 米粒儿    时间: 2018-3-4 21:25
请问文本处理这一部分有教程吗
作者: maomao    时间: 2018-3-4 21:57
米粒儿 发表于 2018-3-4 21:25
请问文本处理这一部分有教程吗

看那个使用指南就可以了,这个软件本来就功能很单一,分词以后供用户选词

作者: Voldemort1986    时间: 2018-6-6 12:45
本帖最后由 Voldemort1986 于 2018-6-6 12:56 编辑

软件很好用,分词效果非常好!太赞了。比网上搜到的其他软件好太多了。
作者: hmj19961016    时间: 2018-11-16 10:23
ym 发表于 2016-11-15 11:16
欢迎大家试用体验,有问题都可以评论反馈

请问一下,中英文自动分词怎么操作啊

作者: Fuller    时间: 2018-11-16 10:55
hmj19961016 发表于 2018-11-16 10:23
请问一下,中英文自动分词怎么操作啊

中英文都能分词,但是英文处理的可能不符合使用习惯,你看到的分词结果不再是原词,而是有些词变成了词干

作者: 发型不错先生    时间: 2019-5-9 15:32
分词统计结果
作者: Fuller    时间: 2019-5-9 15:38
前段时间不能评论了?
作者: 发型不错先生    时间: 2019-5-9 16:36
加油改进
作者: Fuller    时间: 2019-5-9 16:42
集搜客发布的这个分词工具是针对文本做量化分析的基础,通过分词、筛选特征词操作,将被分析的内容变成多维的数据,此工具就能导出一个特征词匹配矩阵,可导入到其他分析工具中做量化运算和可视化分析。这里有一个案例,展示怎样做社会网络分析: https://www.gooseeker.com/doc/article-442-1.html

正文展示的可视化图表,是GooSeeker消费者洞察系统的界面,这个系统是专为行业客户定制的,并没有开放在网络上。如果需要定制特定行业的分析系统,可以电话联系:0755-26021359。 也可以在本网站首页的底部看到更多的联系方式。
作者: ht123456    时间: 2019-6-9 12:44
为什么数据更新了,下载下来的文件还是原来的数据?
作者: Fuller    时间: 2019-6-9 16:09
ht123456 发表于 2019-6-9 12:44
为什么数据更新了,下载下来的文件还是原来的数据?

另创建一个分词任务也不行?

作者: elegantcoin    时间: 2019-6-19 19:41
为啥不设置 停词
作者: Fuller    时间: 2019-6-19 20:36
elegantcoin 发表于 2019-6-19 19:41
为啥不设置 停词

停止词应该分词器负责的,目前集搜客分词工具还没有实现。

如果您想设置排除词,这个跟停止词不一样,你可以跟其他词一样勾选排除词,等导出excel以后,在excel中排除词单独统计

作者: morningair    时间: 2019-8-7 10:46
不能导入词汇本体,按词汇本体分词吗
作者: Fuller    时间: 2019-8-7 10:54
morningair 发表于 2019-8-7 10:46
不能导入词汇本体,按词汇本体分词吗

您说的本体是ontology中的本体吗?

往这个分词工具中一般是导入这类文字:
1,文章
2,用户评论
等,都是自然语言的话语,这个工具主要是执行分词任务,把句子切成词,然后统计哪些词出现的更多

作者: Fuller    时间: 2019-8-7 11:25
[attach]11210[/attach]

可以这样操作
1,创建任务,导入要分词的文本,比如,一行行评论信息
2,如果有一张情感词表存在excel中,可以在excel中选中所有单元格,拷贝-粘贴,就能把所有情感词拷贝到这里。(选词结果页面上的添加词语按钮)
3,等待一会,需要一点时间让系统做自动匹配

然后就可能导出匹配结果了

作者: xinyi1230    时间: 2019-8-13 10:10
可以实现词语之间的依存语法分析吗
作者: Fuller    时间: 2019-8-13 11:49
xinyi1230 发表于 2019-8-13 10:10
可以实现词语之间的依存语法分析吗

想达到什么目标?

以前版本我们有一个标注已存关系的,用来把一个情感词跟一个特征词绑定,这个版本去掉这个功能了。您想要什么功能?我们可以在未来版本中考虑添加

作者: kelly1234_    时间: 2019-8-14 05:38
为社么我没有频次
作者: Fuller    时间: 2019-8-14 08:55
kelly1234_ 发表于 2019-8-14 05:38
为社么我没有频次

你是说导出的结果中没有频次?导出来好几张表,有张表里面就有频次

作者: wang1121    时间: 2019-11-20 16:59
情感类的词语,想着要是能大概归总一下,还是不错滴
作者: Fuller    时间: 2019-11-20 17:21
wang1121 发表于 2019-11-20 16:59
情感类的词语,想着要是能大概归总一下,还是不错滴

很快我们会发布一个版本,增加了情感分类的功能,里面含有我们预先整理好的情感词库。

作者: Fuller    时间: 2019-12-10 22:23
情感分析功能已经加上了
作者: yankaiaimier    时间: 2019-12-18 11:57
很棒的工具
作者: Fuller    时间: 2019-12-18 14:59
yankaiaimier 发表于 2019-12-18 11:57
很棒的工具

这周还会发布一个新版本,增加共现词矩阵的导出功能,这样可以直接导入到Ucinet这类软件中做社会网络分析

作者: zhyzhyzhy    时间: 2019-12-23 12:06
英文语料可以吗?
作者: Fuller    时间: 2019-12-23 21:26
zhyzhyzhy 发表于 2019-12-23 12:06
英文语料可以吗?

明天上午会升级一个新版本,专门解决几个分析英文预料的问题。

作者: zhyzhyzhy    时间: 2019-12-24 12:07
哇!好棒!
作者: 15062562179    时间: 2019-12-28 22:42
请问做英文分词怎么样
作者: Fuller    时间: 2019-12-28 23:52
15062562179 发表于 2019-12-28 22:42
请问做英文分词怎么样

按照空格切分词语,其他功能都是一样

作者: 15062562179    时间: 2019-12-29 08:27
Fuller 发表于 2019-12-28 23:52
按照空格切分词语,其他功能都是一样

谢谢,或许能告诉我出现这种情况应该怎么解决吗(附件)



作者: Fuller    时间: 2019-12-29 09:23
lilyzoo 发表于 2017-3-29 16:11
标过的词可不可以撤回

[attach]11628[/attach]
在选词结果这里撤回

作者: Fuller    时间: 2019-12-30 10:16
15062562179 发表于 2019-12-29 08:27
谢谢,或许能告诉我出现这种情况应该怎么解决吗(附件)

amazon封锁很严重,爬了一段时间以后,应该换IP,清cookie,重新启动爬虫软件

作者: ayden0722    时间: 2020-1-13 10:37
检索语料软件用 使用了一下真的很好用通俗易懂 页面简洁 准备购买
作者: ayden0722    时间: 2020-1-13 11:32
请问免费使用时间是一周吗?购买后功能会和免费使用时的一样吗?
作者: Fuller    时间: 2020-1-13 11:59
ayden0722 发表于 2020-1-13 11:32
请问免费使用时间是一周吗?购买后功能会和免费使用时的一样吗?

是的

作者: ayden0722    时间: 2020-1-13 13:04
请问选词结果下载不了怎么办
作者: Fuller    时间: 2020-1-13 14:57
ayden0722 发表于 2020-1-13 13:04
请问选词结果下载不了怎么办

你用的是什么浏览器器?如果是360,换成chrome试试

作者: li97124    时间: 2020-2-23 09:08
浏览器不支持框架怎么办?
作者: Fuller    时间: 2020-2-23 09:36
li97124 发表于 2020-2-23 09:08
浏览器不支持框架怎么办?

你说的框架是什么?是html的iframe吗?集搜客浏览器和网络爬虫天然就支持iframe,而且跟普通网页一样对待,不要找到iframe的原网址后单独把iframe拿出来处理,集搜客网络爬虫直接就处理了iframe

作者: yangyagn    时间: 2020-2-24 17:54
然而并不准确,比如“我反对这是一部烂片”,会因为有“反对”、“烂片”这类词语,而把整句话打上负面的标签。希望能改进。
作者: Fuller    时间: 2020-2-24 18:01
yangyagn 发表于 2020-2-24 17:54
然而并不准确,比如“我反对这是一部烂片”,会因为有“反对”、“烂片”这类词语,而把整句话打上负面的标 ...

目前,有一些语义处理功能没有提供,比如:
1,极性反转,就像您说的否定词
2,指代消解,比如,前者...后者....
3,歧义消解,同一个词有不同的含义,起码会有不同的词性,再进一步情感词有不同的细分词性,这些都没有细分标注

针对这种情况,需要手工做一些应对,比如,把反转的词也当成普通关键词,然后检查是否与其他词同时出现,如果有,就做反转。因为语义分析的复杂性问题,这些功能都没有做到软件中

作者: Fuller    时间: 2020-2-25 08:06
lilyzoo 发表于 2017-3-29 16:11
标过的词可不可以撤回

在这里删除

[attach]11858[/attach]

作者: reneeing咕叽叽    时间: 2020-2-25 11:46
词云可以下载吗
作者: reneeing咕叽叽    时间: 2020-2-25 11:46
不知道为什么,我总感觉还是很乱(对于技术小白来说,这篇产品说明没有太强的逻辑性)
作者: Fuller    时间: 2020-2-25 12:09
reneeing咕叽叽 发表于 2020-2-25 11:46
词云可以下载吗

词云是一个图,集搜客分词工具能生成词云图,生成以后在屏幕上截图下来就行了。如果你需要词频表自己生成词云图,点击下载按钮就得到excel格式的词频表
[attach]11860[/attach]

作者: Fuller    时间: 2020-2-25 12:15
reneeing咕叽叽 发表于 2020-2-25 11:46
不知道为什么,我总感觉还是很乱(对于技术小白来说,这篇产品说明没有太强的逻辑性) ...

这个是一组教程放在一起,没有逻辑先后关系。可以这样理解:

1,导入数据:不管想做什么加工,一定要先导入数据
2,基于词的分析:先筛选词,在导出词频表
3,做情感分析:点击启动情感分析就行了,如果想用自己的情感词,就可以导入自己的词表
4,分类分析:可以定义类别,让系统把文本归到不同的类中

上面2,3,4是不同的路线,相互没有太多关联

作者: reneeing咕叽叽    时间: 2020-2-25 12:49
Fuller 发表于 2020-2-25 12:09
词云是一个图,集搜客分词工具能生成词云图,生成以后在屏幕上截图下来就行了。如果你需要词频表自己生成 ...

好的,谢谢,我觉得gooskeer总体来说做得不错,如果词云图可以直接下载就更好了,因为截图相对不够清晰。
如果能够增加词云图的服务(形状选择、色彩、样式等等)提供一站式服务就更好了,我相信会有更多像我这样的做营销的人愿意购买会员,因为要到第三方软件去生成漂亮的词云图实在又是另外一层工作量了

作者: reneeing咕叽叽    时间: 2020-2-25 12:51
Fuller 发表于 2020-2-25 12:09
词云是一个图,集搜客分词工具能生成词云图,生成以后在屏幕上截图下来就行了。如果你需要词频表自己生成 ...

尤其是第三方软件的词云图又要重新手动输入词频,简直是个大工程,或者你们这边有合作的词云合作方吗?可以兼容并且自动分析goseeker导出的excel数据,形成互补的也可以

作者: ym    时间: 2020-2-25 15:26
本帖最后由 ym 于 2020-2-25 15:37 编辑
reneeing咕叽叽 发表于 2020-2-25 12:51
尤其是第三方软件的词云图又要重新手动输入词频,简直是个大工程,或者你们这边有合作的词云合作方吗?可 ...

可以用在线词云工具https://wordart.com/,直接把词频拷贝上去,不过中文会显示乱码,需要先上传中文字体文件才能显示正常
[attach]11861[/attach]

作者: zsyzsy77    时间: 2020-3-2 20:00
不能对已经下载好的word文本进行分词吗
作者: Fuller    时间: 2020-3-2 22:56
zsyzsy77 发表于 2020-3-2 20:00
不能对已经下载好的word文本进行分词吗

把word文件导入分词工具就能分词

作者: wwdz2018    时间: 2020-3-4 23:56
我想咨询下我采集数据的时候同一家店的店名都重复下载了,现在怎么只保留一个店名信息,并对应相应的评论?数据太多一个一个删除很麻烦!
作者: Fuller    时间: 2020-3-5 00:33
wwdz2018 发表于 2020-3-4 23:56
我想咨询下我采集数据的时候同一家店的店名都重复下载了,现在怎么只保留一个店名信息,并对应相应的评论? ...

在excel中,可以标记重复数据,把重复的行标记成一个颜色,然后可以用排序功能,把重复在放在一起,然后手工选中重复的进行删除

作者: 123goo    时间: 2020-3-11 11:26
可以自定义分词规则吗
作者: Fuller    时间: 2020-3-11 11:49
123goo 发表于 2020-3-11 11:26
可以自定义分词规则吗

分词规则改不了。如果发现词被切开了,可以手工加词,就会严格按照输入词进行匹配

作者: Belle_123    时间: 2020-3-18 14:01
可以自定义需要分词的词表吗
作者: ym    时间: 2020-3-18 14:31
Belle_123 发表于 2020-3-18 14:01
可以自定义需要分词的词表吗

平台有内置的分词器,一般不用导入词表;如果部分词语没有正确切分出来,可以在“选词结果”页签里添加自定义的词语,那么平台就会单独遍历新加的词并统计词频


作者: 江山娇    时间: 2020-3-20 00:03
分词检索导入数据分析不出来?点全部就有,但是没法导出啊
作者: 江山娇    时间: 2020-3-20 00:17
我想问一下,分类检索导入数据处理之后,关注页没有显示是怎么回事?点全部页有显示但是也不能导出啊……
作者: Fuller    时间: 2020-3-20 07:00
江山娇 发表于 2020-3-20 00:03
分词检索导入数据分析不出来?点全部就有,但是没法导出啊

你想导出哪个表?导入以后,分词完成,就可以导出一些表了,你导出哪个表没有得到?

作者: Fuller    时间: 2020-3-20 07:10
江山娇 发表于 2020-3-20 00:17
我想问一下,分类检索导入数据处理之后,关注页没有显示是怎么回事?点全部页有显示但是也不能导出啊…… ...

如果没有配置类别,就不会显示分类信息,请看下面两个图,对比了没有配置类别和配置了类别的不同,有了分类才能导出,如果没有分类,导出这些内容没有意义,就是原文内容。
[attach]12135[/attach]

没有配置分类的情况
[attach]12134[/attach]









欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2