集搜客GooSeeker网络爬虫
标题:
显示结果只有1000条记录抓取的问题
[打印本页]
作者:
xzhang
时间:
2022-4-24 08:55
标题:
显示结果只有1000条记录抓取的问题
我建的一个规则osti_fy_year,网站只能查看1000条记录,但是直接访问url是可以看到全部的检索结果的。比如
https://www.osti.gov/search/publ ... 2/31/2000/page:1097
。我直接修改最后的页码参数。是可以访问的。但是却总是抓取不到1000条以后的数据。请问是什么原因
作者:
Fuller
时间:
2022-4-24 09:31
我看到这个提示:
[attach]15455[/attach]
看样子需要登录。你在爬虫浏览器中先登录好,再运行爬虫。
如果1000页以后不能用自动翻页的方式。那么把每一页的网址构造出来,导入到爬虫任务中。可以在excel中构造,很容易就拼接好了
作者:
xzhang
时间:
2022-4-24 13:33
网站注册不成,只能采用你说的第二种方法,我也是把每页的url都在excel种构造出来了,然后添加到任务线索中。但是还是抓取50页后,以后的线索都是失败。页面可以打开,只是下载不下来数据,没有xml文件生成。只有50个xml文件。
作者:
xzhang
时间:
2022-4-24 13:40
我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。
作者:
xzhang
时间:
2022-4-24 13:40
Fuller 发表于 2022-4-24 09:31
我看到这个提示:
我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。
作者:
Fuller
时间:
2022-4-24 15:16
可能有两个原因:
1. 网站有防爬:可能是网站看到访问的网址不是正常显示出来的那种,就对访问做了限制。那么可以换个IP再采集试试,如果换个IP有效,就确定是防爬2. 可能1000页以后显示不了内容:打开一个1000页以后的网页,观察内容是否显示出来了。如果没有显示内容,就会生成不了xml。如果有内容,那么可能是网页结构不一样,规则不适应。就要用规则分析一下这样的网页,如果有必要,再做一个同任务名、不同规则编号的规则
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2