|
本帖最后由 ym 于 2019-5-28 10:14 编辑
下面是旧版的调度功能界面,新版本的调度功能请看《调度设置操作介绍》。
如果是层级规则,第一级主题采集列表网址,第二级主题采集详情页信息,这种情况可以通过爬虫群采集实现增量抓取,分别对两级主题进行调度设置,其中第一级主题名要额外设置如下参数,才能实现采集新增网址的目的。
1、登录集搜客官网的会员中心->规则管理->***主题名->调度
2、第一级主题在设置完其他参数后,需要额外设置的参数如下:
- 激活下级线索选择“否”
- 下级线索重复容忍度可填0-100的范围,如果新增网址是在列表的最后一页,就要填100重头到尾采集一遍列表页,如果新增网址是在前面几页,就可以填小于100
- 激活线索设置选择“是”,然后设置定时采集的周期时间
完成以上设置后,通过爬虫群采集,第一级主题每次采集,就会只把新增的下级线索网址传递给第二级主题,从而实现增量抓取。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 1 个关于本帖的回复 最后回复于 2016-1-14 20:56