本帖最后由 ym 于 2015-12-17 21:25 编辑

问:我现在的需求是,每十分钟去抓取一次页面,判断更新内容,存入数据库,用这个能满足吗 ?
规则有了之后,设置自动采集,是你们服务器在帮忙采集吗?采集好的数据 然后自动入库?

答:是自己电脑上的DS打数机负责采集,采完就存到本地文件夹里

问:那我看,个人中心里面的规则设置,可以设置采集时间,这个设置了,DS打数机开启,就会按照这个时间去自动采集嘛

答:那个不是采集的开始时间,而是采集的间隔时间,设置调度并开启爬虫群后,只要有等待抓取的线索,爬虫群就会自动采集了

问:DS打数机会读取你们服务器每个会员设置的采集间隔时间等,然后在本地的浏览器上执行是吧

答:是的

问:哦哦,我以为设置了,之后,我不用开浏览器,你们服务器会自动抓取,然后入库到个人中心里面呢

答:你说的这种是云采集吧,云采集的失败率是不可预测的,爬虫群是在本地采集的,过程是看得见的而且可以控制的,成功了多少,失败了多少,你都可以知道的

问:线索的意思,是不是当前要抓取的URL地址 。。可是规则里面不都设置了地址吗 ?

答:线索就是要采集的网址,但是采完一遍就会失效,要激活或者重新导入才能再使用。

问:那规则里面的那个URL地址起什么作用呢 ?每个规则会默认生成一个和规则一样的URL地址线索是不是

答:做规则的样本页面地址会作为一条线索,规则里的线索是让爬虫访问并采集数据的,记录了所有采集过的网址,通过激活操作是可以重复利用的

问:我用ds打数机运行之后,本地没抓到抓取的文件,但是个人中心里面的入库文件倒是有我抓取的数据

答:你设了自动入库的,本地的数据文件会自动打包为zip文件,抓取结果文件自动转移到imported文件夹了

问:这个是不是代表,本地的DS打数机会自动运行了,还是说,设置规则生效了,DS打数机会按照里面的设置运行?

答:那是运行爬虫群后,用来控制是否调用规则采数据的,参考如何运行爬虫群http://www.gooseeker.com/doc/article-197-1.html
你看高级调度参数,一次调度是一批线索。如果暂停,也是暂停下一批。这一批已经在运行了是不能停下的。如果你真想立即停下,把爬虫窗口关了就停下了












举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-12-17 21:24

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 23:11