需要在短时间内打开大量微博 博主网页,但是大约打开50个左右就会被提示访问频繁,然后在10多分钟内都就看不到了博主主页搜索出来的内容了,请问需要怎么解决?感谢各位大神!
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-3-3 14:34

沙发
ym 版主 发表于 2017-3-3 10:34:04 | 只看该作者
微博有很严格的反爬措施,例如会检测窗口数量,所以,为了能持续地采集微博数据,要做如下设置:
1、每次只能开一个爬虫窗口;
2、放慢采集速度,尽量模拟人的浏览行为;
3、定期更换微博账号,例如一天换一个微博账号;
4、每天清理浏览器的cookies;
5、更换ip地址;
详细操作请参考《抓取网页信息太快导致封锁IP的情况,如何处理》
举报 使用道具
板凳
kkingwing 高级会员 发表于 2017-3-3 14:34:46 | 只看该作者
ym 发表于 2017-3-3 10:34
微博有很严格的反爬措施,例如会检测窗口数量,所以,为了能持续地采集微博数据,要做如下设置:
1、每次只 ...

好的,感谢~之前在想自动换IP的事情,因为要的数据也需要在较短的时间内爬出来。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 18:10