采集速度在哪儿可以修改呀,我担心有反爬
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-12-11 11:56

沙发
Fuller 管理员 发表于 2016-11-20 15:45:56 | 只看该作者
大型的网站会有一些反爬措施,到底反爬有多严,需要实验才能知道。

如果你的网络爬虫软件安装在云服务器上,千万不要试探,一旦被封IP,很久都不会解开,你的IP就费了。实验要在动态IP的环境中做,比如,ADSL接入和光纤接入。

先把爬虫速度调高,而且并行运行好几个爬虫线程,遇到反爬,就往下调速度。

一旦你的IP被封锁了,需要重新拨号换IP,而且清洗cookie,同时放慢采集速度,参看这个集锦《设置网络爬虫的采集数据速度
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-11 11:56:45 | 只看该作者
放慢采集速度的方法总结,请参看《采集速度太快了,我想调慢点》的“地板”楼层。摘录如下:

影响采集速度的参数有:
1,线索间等待最短时间  和 线索间等待最长时间  的组合,如 @Fuller 所说
2,最大允许运行爬虫数量:这是运行这个主题的爬虫数量,也就是并行运行的数量,1个最慢
3,延迟抓取时间、一轮线索数量,这个两个组合在一起,让一轮线索数量变小,延迟抓取时间变长,那么每轮调度的周期变长了,每一轮抓的也少了,就会大大变慢
4,超时等待时间:只对失败线索有效,如果这个时间很长,失败前等待时间就长,但是,对于成功抓取的,不会达到这个时间的
5,滚屏次数、滚屏速度,这个两个组合在一起,滚屏速度设置成负数,滚屏次数提高,那么滚得很慢,都是要额外滚很多屏,也会大大变慢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 15:29