比如我抓取了100页,但一共是150页,能不能再抓取的时候从第101页开始抓取后面的?
麻烦了!谢谢。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-9-24 23:03

沙发
Fuller 管理员 发表于 2015-9-24 23:03:10 | 只看该作者
如果是各自独立的150页,中断了没有关系,下次从101页开始,但是可以在中断的时候,第100页并没有抓完,这一页需要重新激活

如果是连续的翻页,到100页的时候人为中断了,就接不上了,要从头开始。如果是因为网络拥塞,可以设置
    <resumePageLoad>true</resumePageLoad>
    <resumeMaxCount>3</resumeMaxCount>
这两个参数,可以减轻拥塞的影响。详细参看:http://www.gooseeker.com/doc/article-112-1.html

如果连续翻页的网站每个分页都有独立的网址,那么在MS谋数台的爬虫路线工作台上,不要给翻页线索设置连贯抓取,那么就不怕中断,下次运行会接上。但是,很多时候翻页没有独立的网址,必须一口气翻完
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置
  • 为集搜客分词和情感分析扩展模块安装情感分

热门用户

GMT+8, 2026-3-10 02:35