本帖最后由 Anna J 于 2015-12-25 11:38 编辑

——控制采集数量,想采多少采多少——

也许你要采集数据的网址有100个页面,而你只想采集前10页或者前20页,没问题,爬虫群轻松帮你实现,想采多少,由你决定。

——控制采集时间,让采集根本停不下来——

也许你想要采集网址的数据在不断的更新,而这些更新的数据就是你想要的,隔三差五采集费时费力且效率低下,爬虫群帮你一键设置,定时采集,让你在搞定其他工作的同时又能收获数据。

——拒绝封IP,拒绝低效率——

现在许多大型网站都建立了反爬虫机制,采集过快就会容易让你的IP被封锁,但是采集太慢,对于大量数据只能是杯水车薪,爬虫群一键频率设置,帮你高效采集数据又不被轻易封锁。

具体操作请见http://www.gooseeker.com/doc/article-200-1.html



举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-12-23 09:41

Fuller 管理员 发表于 2015-12-22 15:51:01 | 显示全部楼层
爬虫不再是一个独立的软件,爬虫是个执行机构,gooseeker会员中心是指挥机构,我们称之为“大爬虫”好不好?
举报 使用道具
幸福的地铁 中级会员 发表于 2015-12-23 09:41:41 | 显示全部楼层
这个好,以前采集的过程只能默默的看着,现在可好,可以控制的感觉还是棒棒哒!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 21:50