求教
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-12-14 18:59

沙发
Fuller 管理员 发表于 2016-12-13 22:35:20 | 只看该作者
原创和转发都可以采集,你用微博采集工具箱吧,就不用自己做采集规则了。
举报 使用道具
板凳
亭子 初级会员 发表于 2016-12-14 10:03:54 | 只看该作者
Fuller 发表于 2016-12-13 22:35
原创和转发都可以采集,你用微博采集工具箱吧,就不用自己做采集规则了。 ...

采集工具每一次都是采集全部页面的信息,我要每天都采集,每天采集的人数也很多。重复信息太多,太麻烦了,请问,自己做规则的话,对区分个人原创和转发有教程吗?
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-14 10:32:34 | 只看该作者
亭子 发表于 2016-12-14 10:03
采集工具每一次都是采集全部页面的信息,我要每天都采集,每天采集的人数也很多。重复信息太多,太麻烦了 ...

在这个帖子里我回答了怎么区分原创和转发,其实很简单,不知道你需要什么样的区分标准:http://www.gooseeker.com/doc/thread-396-1-1.html

重复信息很多具体指什么?
举报 使用道具
5#
亭子 初级会员 发表于 2016-12-14 11:21:39 | 只看该作者
Fuller 发表于 2016-12-14 10:32
在这个帖子里我回答了怎么区分原创和转发,其实很简单,不知道你需要什么样的区分标准:http://www.goose ...

这个帖子不是学习的啊
举报 使用道具
6#
Fuller 管理员 发表于 2016-12-14 12:04:25 | 只看该作者
亭子 发表于 2016-12-14 11:21
这个帖子不是学习的啊



你是要识别这种情况吗?凡是含有这个的,都算转发微博。那么需要专门做规则,这个规则做起来稍微有点麻烦,如果自己做规则比较困难,可以委托GooSeeker官方定制服务
举报 使用道具
7#
亭子 初级会员 发表于 2016-12-14 14:28:23 | 只看该作者
Fuller 发表于 2016-12-14 12:04
你是要识别这种情况吗?凡是含有这个的,都算转发微博。那么需要专门做规则,这个规则做起来稍微有点麻 ...

可以推荐思路吗,我想学习一下的
举报 使用道具
8#
Fuller 管理员 发表于 2016-12-14 14:39:39 | 只看该作者
亭子 发表于 2016-12-14 14:28
可以推荐思路吗,我想学习一下的

需要阅读教程才能学会自己做规则,不过一点都不难,有直观标注功能,只是要安下心来阅读几篇教程,教程首页在:http://www.gooseeker.com/tuto/tutorial.html,建议先从《从入门到精通》看起。
举报 使用道具
9#
xandy 论坛元老 发表于 2016-12-14 15:15:31 | 只看该作者
亭子 发表于 2016-12-14 14:28
可以推荐思路吗,我想学习一下的

样例复制还是要做的,原则是原创消息和转发消息一起抓下来,我觉得这个规则对你有帮助《新浪微博_博主主页采集》,这是官方做的规则。如果要自己学习抓的话,那就看看教程实操一遍。
举报 使用道具
10#
亭子 初级会员 发表于 2016-12-14 18:58:15 | 只看该作者
xandy 发表于 2016-12-14 15:15
样例复制还是要做的,原则是原创消息和转发消息一起抓下来,我觉得这个规则对你有帮助《新浪微博_博主主 ...

恩恩,学习一下,谢谢。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 06:05