本帖最后由 ym 于 2017-8-12 11:58 编辑

常见问题 > 采集数据—常见问题导航 > 采集过程的常见问题 > 抓取网页信息太快导致封锁IP的情况,如何处理

采集一个网站太频繁,能够采集的网页越来越少,甚至会被封杀IP,只有控制好采集速度和频率才能持续地获得数据,并且,要定期清理浏览器的cookies。

1、每天清理完cookies后请重启浏览器和爬虫,GS爬虫浏览器清cookie的方法请看帖子《GS浏览器可以清除cookies吗》。
如果是用火狐浏览器,清理cookies操作如图:


2、控制采集速度的方法如下:
(1)爬虫群采集的话,请进入会员中心->规则管理,点击“调度”,可以设置如下调度参数。每个调度参数的意义见http://www.gooseeker.com/doc/article-112-1.html
  • 把调度中的一轮停歇时间设为大于0,
  • 线索间等待最短时间和线索间等待最长时间设大点,但线索间等待最短时间要小于线索间最长时间,
  • 延迟抓取时间可以调大点,
  • 滚屏次数设为一个较大的正整数,
  • 定时器触发默认为否
(2)手工采集的话,通过DS打数机的配置菜单->滚屏参数来控制抓取速度,滚屏次数设为一个较大的正整数,滚屏速度设为负整数,采集速度就会放慢,不要勾定时器触发,不要禁止图片加载、不要禁止JS加载。另外,对于长网页和ajax网页,要把超时时长调整为大于60秒,把延迟抓取设置一个时间值,以便放慢采集速度。
(3)自己编写爬虫调度程序的话,类似方法1修改crontab中控制速度的参数就可以了

3、更换ip地址
已经被限制访问的情况下,建议换个ip,如果是adsl宽带拨号上网的方式,重新拨号就行,如果是光纤上网,就重启路由器,操作如下:
方法a. 将路由器的电源关掉然后重新打开,也就是重启一下路由器后的外网ip地址就换了。
方法b. 需要登陆路由器的web管理界面(当然前提是有帐号密码,一般默认是admin),然后断开当前外网的连接,再重新连接上网络后,外网ip即可成功更换。
                                                



举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-12-11 11:57

沙发
Fuller 管理员 发表于 2016-11-27 14:01:43 | 只看该作者
GS爬虫浏览器清cookie的方法请看帖子《GS浏览器可以清除cookies吗
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-11 11:57:20 | 只看该作者
调慢速度的方法总结:影响采集速度的参数有:1,线索间等待最短时间  和 线索间等待最长时间  的组合,如 @Fuller 所说
2,最大允许运行爬虫数量:这是运行这个主题的爬虫数量,也就是并行运行的数量,1个最慢
3,延迟抓取时间、一轮线索数量,这个两个组合在一起,让一轮线索数量变小,延迟抓取时间变长,那么每轮调度的周期变长了,每一轮抓的也少了,就会大大变慢
4,超时等待时间:只对失败线索有效,如果这个时间很长,失败前等待时间就长,但是,对于成功抓取的,不会达到这个时间的
5,滚屏次数、滚屏速度,这个两个组合在一起,滚屏速度设置成负数,滚屏次数提高,那么滚得很慢,都是要额外滚很多屏,也会大大变慢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 19:58