我设置了下级线索,采集作者信息,上级线索就是采集图书,最后发现作者信息线索有161条,但采集出的xml有1900多条,里面有重复的,如何解决。
调度中,重复内容中断,是和否都代表什么意思?

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-3-6 11:28

沙发
ym 版主 发表于 2017-3-6 10:44:08 | 只看该作者
本帖最后由 ym 于 2017-3-6 10:46 编辑

你是用爬虫群同时采集两个规则吗?
如果是的话,下级线索虽然会自动过滤重复,但是当多个图书都是同一个作者的情况,就会重复激活该作者的线索,每激活一次,爬虫群就会采集一次。
所以,给你的建议是,去excel里过滤重复。或者先用爬虫群采集完第一级规则,这时第二级规则的线索就是去重后的未采集线索,再来用爬虫群采集第二级规则。

重复内容中断:是或否,用于防止重复翻页。是表示进行重复内容检查,以防止翻页死循环,当某页重复采集3次后,爬虫就会停止。如果不用爬虫群,那么可以通过DS打数机设置,勾上高级菜单->终点标志->重复内容。
举报 使用道具
板凳
fqzlala 中级会员 发表于 2017-3-6 11:28:58 | 只看该作者
ym 发表于 2017-3-6 10:44
你是用爬虫群同时采集两个规则吗?
如果是的话,下级线索虽然会自动过滤重复,但是当多个图书都是同一个作 ...

好的谢谢,等采集完图书后,再采集作者

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 18:36