最近采集太频繁了,采集被限制了,我想问问怎样清理火狐的cookies,防止目标网站检测到我这边访问频繁
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-11-29 11:30

沙发
ym 版主 发表于 2016-5-31 11:13:00 | 只看该作者
本帖最后由 ym 于 2016-6-2 12:08 编辑

采集一个网站太频繁,能够采集的网页越来越少,甚至会被封杀IP,只有控制好采集速度和频率才能持续有效地获得数据,并且,要定期清理浏览器的cookies。解决方法如下:

1、每天清理完cookies后请重启浏览器和爬虫,清理cookies操作如图:


2、控制采集速度的方法如下:
(1)爬虫群采集的话,可以把调度中的一轮停歇时间设为大于0,线索间等待最短时间和线索间等待最长时间设大点,但线索间等待最短时间要小于线索间最长时间,延迟抓取时间可以调大点,滚屏次数设为一个较大的正整数,定时器触发默认为否,每个调度参数的意义见http://www.gooseeker.com/doc/article-112-1.html
(2)手工采集的话,通过DS打数机的配置菜单->滚屏参数来控制抓取速度,滚屏次数设为一个较大的正整数,滚屏速度设为负整数,采集速度就会放慢,不要勾定时器触发,不要禁止图片加载、不要禁止JS加载
(3)自己编写爬虫调度程序的话,类似方法1修改crontab中控制速度的参数就可以了

3、更换ip地址
已经被限制访问的情况下,建议换个ip,如果是adsl宽带拨号上网的方式,重新拨号就行,如果是光纤上网,就重启路由器,操作如下:
方法a. 将路由器的电源关掉然后重新打开,也就是重启一下路由器后的外网ip地址就换了。
方法b. 需要登陆路由器的web管理界面(当然前提是有帐号密码,一般默认是admin),然后断开当前外网的连接,再重新连接上网络后的外网ip即可成功更换。
举报 使用道具
板凳
ym 版主 发表于 2016-11-29 11:30:34 | 只看该作者
GS爬虫浏览器清cookie的方法请看帖子《GS浏览器可以清除cookies吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 01:34