最近爬虫出了问题,可能是网页进行了防爬虫设置。
规则是:cnvd漏洞列表,cnvd漏洞详细信息
具体表现是,添加线索进行爬取,爬取约10个页面后,就会持续失败。已经设置了减慢爬取速度,设置了滚屏时间等,还有清除了cookies,都无效。
添加的线索网址是:
http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=0
http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=20
http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=40
......
cnvd漏洞列表规则爬取完网址后在启用cnvd漏洞详细信息规则进行爬取。

举报
| 回复

共 4 个关于本帖的回复 最后回复于 2017-1-17 22:10

沙发
Fuller 管理员 发表于 2017-1-17 21:02:37 | 只看该作者
我测试了,确实是这样,即使用手工点击,不管用什么浏览器,都会出现这个现象,可能是对访问次数作了限制
举报
板凳
Fuller 管理员 发表于 2017-1-17 21:04:10 | 只看该作者
似乎是一分钟可以点击10次
举报
地板
fasdfs 新手上路 发表于 2017-1-17 21:30:23 | 只看该作者
Fuller 发表于 2017-1-17 21:02
我测试了,确实是这样,即使用手工点击,不管用什么浏览器,都会出现这个现象,可能是对访问次数作了限制 ...

请问有什么解决办法吗
举报
5#
Fuller 管理员 发表于 2017-1-17 22:10:46 | 只看该作者
fasdfs 发表于 2017-1-17 21:30
请问有什么解决办法吗

用爬虫群模式,设置调度参数的时候,“一轮停歇时间”设置成60秒,高级设置里面的“一轮线索数量”设置成9,就是一批只抓9个网页。这样应该可以,你可以试试。爬虫群设置方法参考高级教程《如何运行爬虫群
举报
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-29 21:51