想要抓取的交易纪录中有些商品销量极高, 需增量採集。但在翻过几轮教程后, 提到增量採集的教程很少, crontab的变数解释上关于增量採集的部分也不多 , 请问关于增量採集有详细的crontab设定范例可以参考吗?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-1-8 15:59

沙发
ym 版主 发表于 2015-12-2 14:55:17 | 只看该作者
本帖最后由 ym 于 2015-12-2 14:57 编辑

实现增量采集的关键参数是period,renewclue
1)parameter部分的period是控制周期的,表示调度下一批次的时间间隔,以秒为单位,想要每日都采集一遍的话,可以设置period为86400(24X60X60),如果是早上9点打开DS调度窗口的话,只要有等待抓取的线索,以后每天9点都会重新爬一遍
2)step部分的renewclue是用来激活线索的,填true就会激活所有线索,如果只想要爬特定线索,那就把规则下的所有线索删掉,再把特定线索添加到规则里,这样,激活线索时就没有不需要的线索了

举报 使用道具
板凳
Fuller 管理员 发表于 2016-6-2 23:16:48 | 只看该作者
尽量用会员中心的爬虫罗盘调度功能吧,参数设置十分直观,crontab.xml将逐渐废弃了
举报 使用道具
地板
Fuller 管理员 发表于 2017-1-8 15:59:26 | 只看该作者
V8.1.1正式废弃了crontab.xml,因为要设置的选项太多了,使用难度很大,只给旗舰版和更高版本用户保留了crontab.xml,可用于高频度增量采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 06:06