我建的一个规则osti_fy_year,网站只能查看1000条记录,但是直接访问url是可以看到全部的检索结果的。比如 https://www.osti.gov/search/publ ... 2/31/2000/page:1097。我直接修改最后的页码参数。是可以访问的。但是却总是抓取不到1000条以后的数据。请问是什么原因
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2022-4-24 15:16

Fuller 管理员 发表于 2022-4-24 09:31:05 | 显示全部楼层
我看到这个提示:
构造2836.png

看样子需要登录。你在爬虫浏览器中先登录好,再运行爬虫。

如果1000页以后不能用自动翻页的方式。那么把每一页的网址构造出来,导入到爬虫任务中。可以在excel中构造,很容易就拼接好了
举报 使用道具
xzhang 高级会员 发表于 2022-4-24 13:33:37 | 显示全部楼层
网站注册不成,只能采用你说的第二种方法,我也是把每页的url都在excel种构造出来了,然后添加到任务线索中。但是还是抓取50页后,以后的线索都是失败。页面可以打开,只是下载不下来数据,没有xml文件生成。只有50个xml文件。
捕获.PNG
捕获1.PNG
举报 使用道具
xzhang 高级会员 发表于 2022-4-24 13:40:24 | 显示全部楼层
我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。
举报 使用道具
xzhang 高级会员 发表于 2022-4-24 13:40:46 | 显示全部楼层
Fuller 发表于 2022-4-24 09:31
我看到这个提示:

我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。
举报 使用道具
Fuller 管理员 发表于 2022-4-24 15:16:08 | 显示全部楼层
可能有两个原因:
1. 网站有防爬:可能是网站看到访问的网址不是正常显示出来的那种,就对访问做了限制。那么可以换个IP再采集试试,如果换个IP有效,就确定是防爬2. 可能1000页以后显示不了内容:打开一个1000页以后的网页,观察内容是否显示出来了。如果没有显示内容,就会生成不了xml。如果有内容,那么可能是网页结构不一样,规则不适应。就要用规则分析一下这样的网页,如果有必要,再做一个同任务名、不同规则编号的规则
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:00