集搜客GooSeeker网络爬虫

标题: 显示结果只有1000条记录抓取的问题 [打印本页]

作者: xzhang    时间: 2022-4-24 08:55
标题: 显示结果只有1000条记录抓取的问题
我建的一个规则osti_fy_year,网站只能查看1000条记录,但是直接访问url是可以看到全部的检索结果的。比如 https://www.osti.gov/search/publ ... 2/31/2000/page:1097。我直接修改最后的页码参数。是可以访问的。但是却总是抓取不到1000条以后的数据。请问是什么原因

作者: Fuller    时间: 2022-4-24 09:31
我看到这个提示:
[attach]15455[/attach]

看样子需要登录。你在爬虫浏览器中先登录好,再运行爬虫。

如果1000页以后不能用自动翻页的方式。那么把每一页的网址构造出来,导入到爬虫任务中。可以在excel中构造,很容易就拼接好了

作者: xzhang    时间: 2022-4-24 13:33
网站注册不成,只能采用你说的第二种方法,我也是把每页的url都在excel种构造出来了,然后添加到任务线索中。但是还是抓取50页后,以后的线索都是失败。页面可以打开,只是下载不下来数据,没有xml文件生成。只有50个xml文件。
作者: xzhang    时间: 2022-4-24 13:40
我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。
作者: xzhang    时间: 2022-4-24 13:40
Fuller 发表于 2022-4-24 09:31
我看到这个提示:

我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。

作者: Fuller    时间: 2022-4-24 15:16
可能有两个原因:
1. 网站有防爬:可能是网站看到访问的网址不是正常显示出来的那种,就对访问做了限制。那么可以换个IP再采集试试,如果换个IP有效,就确定是防爬2. 可能1000页以后显示不了内容:打开一个1000页以后的网页,观察内容是否显示出来了。如果没有显示内容,就会生成不了xml。如果有内容,那么可能是网页结构不一样,规则不适应。就要用规则分析一下这样的网页,如果有必要,再做一个同任务名、不同规则编号的规则





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2