:云采集能否采集天猫的数据

:集搜客GooSeeker并不刻意提“云采集”这个概念。根据产品功能介绍一文,GooSeeker可以部署在任何地点,部署在云服务器上的话,你不妨称其为“云采集”。如果采用云部署,要着重考察几点:

1)运行在云上的采集器能否被观察到?
如果在云服务器上运行的程序是个黑盒子,就像我们把nutch的程序核心集成到我们自己的程序中,它在运行时出现问题,怎么去诊断?怎样去排除故障?那么必须需要一套监控程序,最好是可视化的。而GooSeeker是图形化界面,只要运行远程桌面,云服务器上的采集器可以和本地的一样维护

2)采集器能自动为你输入账号密码,甚至验证码?
采集过程还有其他一些互动,如果是在云服务器上运行的黑盒子,这些互动都无法执行了。而GooSeeker远程桌面方式不存在这个障碍

3)内容能采全吗?
现在JavaScript生成的内容越来越多,很多内容没在浏览器上显示的时候就根本不会下载,例如,电商网站上的商品图片和他们的地址,如果没有在当前屏幕上显示,html img标签的src属性只是指向一个不存在的网址,抓下来也没有用。只有在实际屏幕上显示的时候才会把src改成正确的网址。这仅仅是一个场景,还有大量场景都是“即看即下载”。没有显示设备的云采集是无能为力的。所以,GooSeeker即使部署在云上,也要保留图形化界面。

4)固定IP是否会被封锁?
几乎每个大型网站都会对访问流量进行严格控制。采集网页数据的大部分情形不会像百度爬虫那样逐步扩展范围,我们总是想在尽可能短的时间内完成采集任务,从云服务器上发起的采集被封锁是大概率事件。数据采不全,很多场合就是没有价值的。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-18 09:29

沙发
Fuller 管理员 发表于 2016-10-18 09:29:20 | 只看该作者
阿里巴巴系的网站反爬能力很强,我们强烈推荐不要用云采集,即便你有1000个服务器地址,封锁他们是很快的。而且说不定你拿到的IP地址本来就被列入了黑名单。

如果确实不想管理采集过程,可以联系我们,我们与专业运维团队
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 09:12