集搜客网页抓取工具怎么定时采集??
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-4-21 17:01

沙发
shengchengx 金牌会员 发表于 2017-4-21 17:01:07 | 只看该作者
一、用爬虫群设置周期采集

1、登录到集搜客的会员中心->爬虫群->点击对应规则的“调度”按钮
2、除了其他参数外,一定要做激活线索设置,定时激活线索选择“是”
3、激活时间选择“每天激活”,时间方框里要输入一个时间点数,右边的周一...周日可以根据需要勾选,全勾的话,就会在每天的12点都自动激活线索。当爬虫群窗口是启动的情况,它就会自动采集该规则的数据。
注意:激活时间如果选择“指定时间”,就是只会在设定好的未来时间里激活一次线索,而不会周期采集

二、用crontab调度程序设置周期采集

1、只有购买了旗舰版 / vip版/ 企业版爬虫,才可以用crontab
2、crontab的编写方法见http://www.gooseeker.com/doc/article-112-1.html
3、crontab参数的意义跟会员中心的调度是一致的,只是要写成对应的英文名称,不用每个参数都写上,不写的参数就会用默认值。
4、关键是必须写renewclue这一个step,指定激活线索的主题名,然后循环周期要设置parameter里面的period参数,单位是秒

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置

热门用户

GMT+8, 2026-3-26 03:21