集搜客GooSeeker网络爬虫

标题: 如果抓到一半停止了,第二天再从停止的地方开始,是否可以实现? [打印本页]

作者: 肥胖君    时间: 2015-8-27 10:42
标题: 如果抓到一半停止了,第二天再从停止的地方开始,是否可以实现?
如果当天抓取了1000条数据,第二天想从1001条数据开始抓,是否可以实现?
作者: gooseeker_info    时间: 2015-8-27 10:46
是翻页抓取吗?连续翻页不能从中间重新开始。如果是抓取单页,中断的时候可能会影响当时在抓的那个网页,下次启动会从剩下没抓的那些开始,所以,不用担心中断。如果中断时受影响的那个要重新抓取,可以在DS打数机中激活失败线索,不要激活所有线索
作者: For数据    时间: 2015-8-27 10:47
如果是所抓数据的网址不根据翻页而发生变化,那么所说的功能暂时不能实现,如果每个翻页后的页面都是一个新的网址,那么可以将第2001的网址作为起始页面重新构建规则进行抓取。
作者: ray_zhurui    时间: 2016-8-13 00:49
For数据 发表于 2015-8-27 10:47
如果是所抓数据的网址不根据翻页而发生变化,那么所说的功能暂时不能实现,如果每个翻页后的页面都是一个新 ...

即使是在网页地址不变的动态页面下,让爬虫在捉取时判断一下页面中某个值不久能让爬虫知道上一次断点在哪里了么?功能上要实现断点续采应该不难吧?
作者: Fuller    时间: 2016-8-13 09:31
ray_zhurui 发表于 2016-8-13 00:49
即使是在网页地址不变的动态页面下,让爬虫在捉取时判断一下页面中某个值不久能让爬虫知道上一次断点在哪 ...

技术问题都可以突破的,我们已经安排研发了
作者: ray_zhurui    时间: 2016-8-13 13:14
Fuller 发表于 2016-8-13 09:31
技术问题都可以突破的,我们已经安排研发了

其实给个捉取页数上限的设置就能解决90%的问题。
作者: Fuller    时间: 2016-8-13 14:45
ray_zhurui 发表于 2016-8-13 13:14
其实给个捉取页数上限的设置就能解决90%的问题。

设置上限的功能有,在会员中心,为这个规则设置调度参数,高级设置中有“同一线索内翻页次数”
作者: ray_zhurui    时间: 2016-8-13 14:54
Fuller 发表于 2016-8-13 14:45
设置上限的功能有,在会员中心,为这个规则设置调度参数,高级设置中有“同一线索内翻页次数” ...

MS上能设置么?
作者: Fuller    时间: 2016-8-13 15:29
ray_zhurui 发表于 2016-8-13 14:54
MS上能设置么?

MS上只管规则,不管爬虫怎么跑。在DS打数机上也没有菜单设置这个限制,只能在会员中心设置
作者: ray_zhurui    时间: 2016-8-13 17:40
Fuller 发表于 2016-8-13 15:29
MS上只管规则,不管爬虫怎么跑。在DS打数机上也没有菜单设置这个限制,只能在会员中心设置 ...

我觉得在MS的爬虫路径里应该把这个设置加上吧?




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2