集搜客GooSeeker网络爬虫

标题: 翻页中断 [打印本页]

作者: 1996zrq    时间: 2020-5-2 19:24
标题: 翻页中断
任务名:gb1.4
问题:一共1269页,每次都是不一定多少页就停了,而且没有报错。



作者: Fuller    时间: 2020-5-3 07:48
这个网站太慢了,完整采集下来1000多页难度很大,如果中断了,看一下DS打数机底部的日志窗口,里面显示了什么内容。如果说超时了,把超时时长调大
作者: 1996zrq    时间: 2020-5-3 09:43
日志窗口什么都没有写
作者: 1996zrq    时间: 2020-5-3 09:44
Fuller 发表于 2020-5-3 07:48
这个网站太慢了,完整采集下来1000多页难度很大,如果中断了,看一下DS打数机底部的日志窗口,里面显示了什 ...

日志窗口什么都没有写

作者: Fuller    时间: 2020-5-3 09:46
刚才我采集测试了,确实中间就断了,没有任何日志,在300多页的时候,应该是网站太慢了,显示不出来翻页条了
作者: 1996zrq    时间: 2020-5-3 16:00
Fuller 发表于 2020-5-3 09:46
刚才我采集测试了,确实中间就断了,没有任何日志,在300多页的时候,应该是网站太慢了,显示不出来翻页条 ...

那应该怎么办呀

作者: Fuller    时间: 2020-5-3 16:32
1996zrq 发表于 2020-5-3 16:00
那应该怎么办呀

这个网站没法应对,我看了,每个分页没有独立的网址,如果每个分页有网址,从断掉的那个分页重新采集,这个网站只能从头重新采集。

要想知道断掉的具体原因,要手工翻页,翻到断掉那里,观察数据有什么特点

作者: 1996zrq    时间: 2020-5-3 21:21
Fuller 发表于 2020-5-3 16:32
这个网站没法应对,我看了,每个分页没有独立的网址,如果每个分页有网址,从断掉的那个分页重新采集,这 ...

可是每次断掉的都不是一个地方是为什么啊


作者: Fuller    时间: 2020-5-3 22:14
1996zrq 发表于 2020-5-3 21:21
可是每次断掉的都不是一个地方是为什么啊

我估计是网站反应不过来





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2