云采集能否采集天猫的数据

Fuller

问：云采集能否采集天猫的数据

答：集搜客GooSeeker并不刻意提“云采集”这个概念。根据产品功能介绍一文，GooSeeker可以部署在任何地点，部署在云服务器上的话，你不妨称其为“云采集”。如果采用云部署，要着重考察几点：

1）运行在云上的采集器能否被观察到？
如果在云服务器上运行的程序是个黑盒子，就像我们把nutch的程序核心集成到我们自己的程序中，它在运行时出现问题，怎么去诊断？怎样去排除故障？那么必须需要一套监控程序，最好是可视化的。而GooSeeker是图形化界面，只要运行远程桌面，云服务器上的采集器可以和本地的一样维护

2）采集器能自动为你输入账号密码，甚至验证码？
采集过程还有其他一些互动，如果是在云服务器上运行的黑盒子，这些互动都无法执行了。而GooSeeker远程桌面方式不存在这个障碍

3）内容能采全吗？
现在JavaScript生成的内容越来越多，很多内容没在浏览器上显示的时候就根本不会下载，例如，电商网站上的商品图片和他们的地址，如果没有在当前屏幕上显示，html img标签的src属性只是指向一个不存在的网址，抓下来也没有用。只有在实际屏幕上显示的时候才会把src改成正确的网址。这仅仅是一个场景，还有大量场景都是“即看即下载”。没有显示设备的云采集是无能为力的。所以，GooSeeker即使部署在云上，也要保留图形化界面。

4）固定IP是否会被封锁？
几乎每个大型网站都会对访问流量进行严格控制。采集网页数据的大部分情形不会像百度爬虫那样逐步扩展范围，我们总是想在尽可能短的时间内完成采集任务，从云服务器上发起的采集被封锁是大概率事件。数据采不全，很多场合就是没有价值的。

Fuller · 发表于 2016-10-18 09:29:20

阿里巴巴系的网站反爬能力很强，我们强烈推荐不要用云采集，即便你有1000个服务器地址，封锁他们是很快的。而且说不定你拿到的IP地址本来就被列入了黑名单。

如果确实不想管理采集过程，可以联系我们，我们与专业运维团队

云采集能否采集天猫的数据

共 1 个关于本帖的回复最后回复于 2016-10-18 09:29

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

云采集能否采集天猫的数据

共 1 个关于本帖的回复 最后回复于 2016-10-18 09:29

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2016-10-18 09:29