2 16372

如何设置周期定时采集?

ym 于 2017-1-6 17:50 发表 [复制链接]
本帖最后由 ym 于 2017-5-3 11:15 编辑

想要设置周期定时采集,即间隔一定时间就会自动重复采集一遍,关键是要设置周期激活线索,然后运行爬虫群就可以达到周期采集的效果。有以下方法:
1、用爬虫群调度采集,在规则的调度里设置激活线索,循环周期可设为一天或以上。
2、购买旗舰版或VIP版爬虫或企业版爬虫,编写crontab调度程序,循环周期比爬虫群要自由,可以达到秒级。
详细操作请往下看
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-1-6 18:16

ym 版主 发表于 2017-1-6 18:01:32 | 显示全部楼层
本帖最后由 ym 于 2019-5-28 10:17 编辑

下面是旧版的调度功能界面,新版本的调度功能请看《调度设置操作介绍》

一、用爬虫群设置周期采集

1、登录到集搜客的会员中心->爬虫群->点击对应规则的“调度”按钮
2、除了其他参数外,一定要做激活线索设置,定时激活线索选择“是”
3、激活时间选择“每天激活”,时间方框里要输入一个时间点数,右边的周一...周日可以根据需要勾选,全勾的话,就会在每天的12点都自动激活线索。当爬虫群窗口是启动的情况,它就会自动采集该规则的数据。
注意:激活时间如果选择“指定时间”,就是只会在设定好的未来时间里激活一次线索,而不会周期采集

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
ym 版主 发表于 2017-1-6 18:16:18 | 显示全部楼层
本帖最后由 ym 于 2017-5-3 11:15 编辑

二、用crontab调度程序设置周期采集

1、只有购买了旗舰版或vip版或企业版爬虫,才可以用crontab
2、crontab的编写方法见《如何通过crontab程序实现周期性增量采集数据》
3、crontab参数的意义跟会员中心的调度是一致的,只是要写成对应的英文名称,不用每个参数都写上,不写的参数就会用默认值。
4、关键是必须写renewclue这一个step,指定激活线索的主题名,然后循环周期要设置parameter里面的period参数,单位是秒

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-11 14:08