抓取这种网站,抓一会就被封IP了。大概过十分钟,就恢复访问。
了解到,需要用虚拟IP、二级代理这些。大神求解释一下虚拟IP,二级代理该怎么做?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-10-25 23:52

沙发
Fuller 管理员 发表于 2016-10-25 21:48:48 | 只看该作者
只封锁10分钟,我估计你用的是动态IP,比如ADSL和用光猫拨号的光纤。这种已经不错了,要是云服务器的固定IP,封锁时间一般会很长。

用猫接入的话,重新拨号一般会换IP,可以运行一个自动拨号程序,定时重新拨一下。

用VPN其实也一样,要定时重连一下VPN

要是用Proxy,爬虫程序可以更灵活地控制,目前版本还没有实现控制proxy的功能。如果是火狐插件版,直接在火狐上配置proxy就行了,独立的GS爬虫浏览器目前还没有配置接口
举报 使用道具
板凳
759924607 高级会员 发表于 2016-10-25 23:01:33 | 只看该作者
Fuller 发表于 2016-10-25 21:48
只封锁10分钟,我估计你用的是动态IP,比如ADSL和用光猫拨号的光纤。这种已经不错了,要是云服务器的固定IP ...

FULLER大神,再问一个问题。用不同浏览器,查看网页的源码有不同嘛?为什么有的会推荐用谷歌浏览器。同样查看源码,感觉IE浏览器,火狐浏览器效果一样呀。
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-25 23:52:07 | 只看该作者
759924607 发表于 2016-10-25 23:01
FULLER大神,再问一个问题。用不同浏览器,查看网页的源码有不同嘛?为什么有的会推荐用谷歌浏览器。同样 ...

查看源码所看到的,准确的说是从网站上下载下来的html文档。这个文档不管用什么浏览器看到的都是一样,就是一个普通的文本文档。

现在很多html 网页上有javascript代码,他们会加载到浏览器上运行,会在html源码基础上修改网页,所以,用f12看到的源码已经不是最初的那个源码了。而是javascript做了改动后的内容。每个浏览器看到的这个源码就会有很大的区别。你说chrome的好,可能是大家觉得chrome的f12的调测功能特别强大。火狐也不错。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 00:40