大家有沒有遇到过,多个翻页结束后爬虫不停止,会自动从第一页开始重新爬
我一共有10个线索,每个线索都有100页,一个线索爬完后不会进入下一个线索,而是又重新在这个线索的第一页继续爬
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-11-16 17:52

沙发
xandy 论坛元老 发表于 2016-11-16 17:49:48 | 只看该作者
有些网站翻到最后一页会继续从第一页爬,一般这种网站都会有一个总页数显示,可以在爬虫群中限制翻页次数
举报 使用道具
板凳
刺刺洋葱头 新手上路 发表于 2016-11-16 17:51:07 | 只看该作者
xandy 发表于 2016-11-16 17:49
有些网站翻到最后一页会继续从第一页爬,一般这种网站都会有一个总页数显示,可以在爬虫群中限制翻页次数
...

但是当各种线索页数不统一的时候,怎么办呢?
比如一些线索有100页,一些线索有70页
举报 使用道具
地板
xandy 论坛元老 发表于 2016-11-16 17:52:47 | 只看该作者
刺刺洋葱头 发表于 2016-11-16 17:51
但是当各种线索页数不统一的时候,怎么办呢?
比如一些线索有100页,一些线索有70页
...

根据需要取舍,为了保证数据的完整性就限制100,为了节省时间就填小点的数字
爬虫群中还有个下级线索重复容忍度可以配合使用,或者设置重复内容中断



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-1 07:55