有什么办法能让爬虫在中断的地方继续爬数据吗

扶风

网速太慢导致爬虫爬到一半浏览器加载不出来就停止采集了，有什么办法能让爬虫在中断的地方继续爬数据吗

shengchengx · 发表于 2017-12-6 09:42:02

解决方法：
1）如果是翻页采集，而且每一页都有独立网址，那么可以把断掉的下一页网址重新添加线索，就能从断开的地方作为起点采集。

2）但如果页码网址是不变的话，这种只能激活线索后重新开始采集了。
对于有页码输入框的翻页，有一个解决方法：在规则里通过连续动作设置 “点击、输入页码” 的动作，参看连续动作教程http://www.gooseeker.com/doc/article-141-1.html

3）不是翻页采集的话，有多条线索网址，再次采集时会自动从下条线索网址开始的。

wqq5753 · 发表于 2020-12-28 09:43:08

shengchengx 发表于 2017-12-6 09:42
解决方法：
1）如果是翻页采集，而且每一页都有独立网址，那么可以把断掉的下一页网址重新添加线索，就能从 ...

那如果是单条线索的网页呢

Fuller · 发表于 2020-12-28 10:15:49

wqq5753 发表于 2020-12-28 09:43
那如果是单条线索的网页呢

没有独立网址的话，比如，微博的评论，中间中断了只有从头重新采集了

有什么办法能让爬虫在中断的地方继续爬数据吗

共 3 个关于本帖的回复最后回复于 2020-12-28 10:15

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

有什么办法能让爬虫在中断的地方继续爬数据吗

共 3 个关于本帖的回复 最后回复于 2020-12-28 10:15

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2020-12-28 10:15