大家有沒有遇到过,多个翻页结束后爬虫不停止,会自动从第一页开始重新爬
我一共有10个线索,每个线索都有100页,一个线索爬完后不会进入下一个线索,而是又重新在这个线索的第一页继续爬
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-11-16 17:52

沙发
xandy 论坛元老 发表于 2016-11-16 17:49:48 | 只看该作者
有些网站翻到最后一页会继续从第一页爬,一般这种网站都会有一个总页数显示,可以在爬虫群中限制翻页次数
举报 使用道具
板凳
刺刺洋葱头 新手上路 发表于 2016-11-16 17:51:07 | 只看该作者
xandy 发表于 2016-11-16 17:49
有些网站翻到最后一页会继续从第一页爬,一般这种网站都会有一个总页数显示,可以在爬虫群中限制翻页次数
...

但是当各种线索页数不统一的时候,怎么办呢?
比如一些线索有100页,一些线索有70页
举报 使用道具
地板
xandy 论坛元老 发表于 2016-11-16 17:52:47 | 只看该作者
刺刺洋葱头 发表于 2016-11-16 17:51
但是当各种线索页数不统一的时候,怎么办呢?
比如一些线索有100页,一些线索有70页
...

根据需要取舍,为了保证数据的完整性就限制100,为了节省时间就填小点的数字
爬虫群中还有个下级线索重复容忍度可以配合使用,或者设置重复内容中断



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 08:44