集搜客GooSeeker网络爬虫

标题: js参数翻页问题 [打印本页]

作者: jyy1082    时间: 2017-3-11 05:48
标题: js参数翻页问题
网站是利用js参数做的翻页,每一页的url都是不变的。网络问题只爬一部分页就停止了,想从停的页开始爬下一次,这个如何设置呢?

作者: Fuller    时间: 2017-3-11 09:43
这种类型的翻页,如果中间断了,就很难接上了,要从头开始爬
作者: jyy1082    时间: 2017-3-11 13:39
Fuller 发表于 2017-3-11 09:43
这种类型的翻页,如果中间断了,就很难接上了,要从头开始爬

一共600多页,访问到100多页的时候,网页只加载上半部分,下面的翻页没有加载出来,所以认为是最后一页停止了。


作者: Fuller    时间: 2017-3-11 15:02
jyy1082 发表于 2017-3-11 13:39
一共600多页,访问到100多页的时候,网页只加载上半部分,下面的翻页没有加载出来,所以认为是最后一页停 ...

DS打数机的滚屏功能打开没有?

作者: jyy1082    时间: 2017-3-12 04:43
Fuller 发表于 2017-3-11 15:02
DS打数机的滚屏功能打开没有?

滚屏功能打开的,感觉是请求回来的数据不完整,所以只是显示部分数据了。

作者: Fuller    时间: 2017-3-12 10:37
jyy1082 发表于 2017-3-12 04:43
滚屏功能打开的,感觉是请求回来的数据不完整,所以只是显示部分数据了。
...

请求回来的数据不完整,这种情况会发生的,比如,采集微博,微博网站网速不稳定,尤其采集评论信息的时候,经常只显示一半,连翻页区都没有,就会中断了。这种情况目前无法解决,因为即使想刷新页面而重新加载也不行,每个分页没有独立的网址,很多时候一刷新又从第一页开始了。

这种情况只能想办法增加网络带宽,尽量让网速稳定





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2