调度设置参数说明

2019-5-23 19:04| 发布者: ym| 查看: 13904| 评论: 0

摘要: 很多用户会用爬虫群来实现自动采集入库,可能有些参数用得不对,就会造成采集效果不太好的情况。如果一开始不太清楚每个参数怎么设置的情况下,可以先不做修改直接点击确认,因为每一个参数都会有默认值,这些默认值 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

说明:本文介绍在任务管理界面上设置调度参数,从而可以启动自动调度的爬虫群模式,实现快速采集数据。如果是旗舰版或者更高的用户级别,还可以使用本地调度文件管理爬虫群,那么可以解决一个本文介绍的爬虫群没法支持的问题:本文介绍的爬虫群可以运行哪些任务,客户端是决定不了的,由爬虫群调度服务器决定。如果用户想指定某台电脑执行特定的爬虫群任务,那么就需要通过编辑crontab.xml文件,增加本地调度参数。因为参数很多,还涉及到实现细节,那么在另一篇专门的教程中讲解,供执行特殊任务时参考。

很多用户会用爬虫群来实现自动采集入库,可能有些参数用得不对,影响采集效果。所以建议,如果一开始不太清楚每个参数如何设置,可以先不做修改直接点击确认,因为每一个参数都会有默认值,这些默认值对大部分网页是通用的。后面发现采集数据不完整或遇到反爬或需要额外调整的情况,可以重新修改参数值,修改可以查阅《调度设置操作介绍》。下面汇总了调度设置参数的介绍,希望大家可以用好调度设置功能。

其实采集设置里有些参数,比如超时时长、延迟抓取、滚屏采集等,是跟DS打数机菜单里的功能项有对应的,所以在测试采集完成后,大家可以根据DS打数机的配置菜单或高级设置菜单所设定的参数,再来填写调度设置的相关参数。


鲜花

握手
1

雷人
1

路过

鸡蛋

刚表态过的朋友 (2 人)

最新评论

GMT+8, 2024-10-13 09:05