集搜客GooSeeker网络爬虫

标题: 我在采取数据的时候如果突然中断了采集,该怎么继续刚刚哪里采集 [打印本页]

作者: 东条鱼泱希    时间: 2017-4-21 17:24
标题: 我在采取数据的时候如果突然中断了采集,该怎么继续刚刚哪里采集
中断之后还能继续采集么


作者: shengchengx    时间: 2017-4-21 17:27
如果是手工采集(单搜或集搜启动的爬虫),那么就要重新启动,输入新的线索网址数,就会继续爬了

如果是爬虫群采集的话,采集中断是不影响的,因为是只要有待采集的线索网址,就会自动分配给爬虫群,它们是要采完所有线索网址才会停止的。            

作者: Fuller    时间: 2017-4-21 19:15
如果你是说翻页中断怎么办,那么要分成以下情况:

1,如果每个分页都有不同的网址,一般来说是url中用特定的参数表示页码,那么中断以后,可以把中断处的url构造出来,再次把网址添加进去,那么爬虫就可以从中断处再次开始爬数据。

2,如果每个分页没有独立的网址,那么要接上爬就不太容易,只能从头重爬了。有些网站很容易中断,比如,微博的评论,即使手工翻页都会遇到中断,显示说没有更多评论了,但是下一次翻页也许能看到更多评论,这种情况一般是网站的处理速度不够,可以选择在半夜爬数据







欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2