本帖最后由 2445406817 于 2016-9-27 19:56 编辑


如图所示,这个网站我现在登不进去了。浏览器,和打数机中都是显示这个页面。我不确定是我爬数据爬太快,还是这个网站的原因,连接失败?
这个是突然连接失败的,之前我还在采集数据的。

另外,如果是IP被封的话。我在不换电脑的情况下,该如何解决?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-9-27 21:24

沙发
Fuller 管理员 发表于 2016-9-27 21:24:21 | 只看该作者
通常,为了能持续采集,通常控制在4秒钟一个网页。如果确实想提高速度,那么就要安排人看着,比如,同时运行4个以上线程,时常瞅着,一旦被封锁,就要采取如下措施:
1,关闭爬虫,只保留Firefox
2,利用Firefox的清除cookie和访问历史的功能,把他们都清除了(GS爬虫浏览器版本暂时没有清除菜单,需要直接删除临时文件,如果你是爬虫浏览器,跟帖告诉我)
3,是不是ADSL或者光纤接入?这种动态IP,重启猫和路由器,一般会换IP。如果你用的是数据中心机房中的服务器,IP就没法换了
4,重新运行浏览器和爬虫
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 03:26