本帖最后由 ym 于 2019-5-28 10:03 编辑

很多用户会用爬虫群来实现自动采集入库,可能有些参数用得不对,就会造成采集效果不太好的情况。如果一开始不太清楚每个参数怎么设置的情况下,可以先不做修改直接点击确认,因为每一个参数都会有默认值,这些默认值对大部分网页是通用的,如果要修改可以查阅《调度设置操作介绍》。后面发现采集数据不完整或遇到反爬或需要额外调整的情况,可以重新修改参数值。下面汇总了调度设置参数的介绍,希望大家可以用好调度设置功能。

其实采集设置里有些参数,比如超时时长、延迟抓取、滚屏采集等,是跟DS打数机菜单里的功能项有对应的,所以在测试采集完成后,大家可以根据DS打数机的配置菜单或高级设置菜单所设定的参数,再来填写调度设置的相关参数。

参数名称
参数值范围说明
参数作用
执行步骤
采集数据
默认勾选
执行采集数据
数据自动入库
默认勾选
采集结果xml文件自动入库
任务分配设置
批次间休息
单位秒,默认0,可填0和正整数
休息T秒后再分配任务的下一批网址
网址间休息
单位秒,默认0,可填0和正整数
同一个批次里,休息T秒后再采集下一个网址
并发爬虫窗口数
单位个,默认2,可填整数:1-20
一个任务在单台电脑上可同时分配给多少个爬虫窗口,反爬严重的建议设1个爬虫窗口
采集设置
一批网址数量
单位条,默认20,可填正整数
分配给一个爬虫窗口的一批次网址数量
超时时长
单位秒,默认60,可填正整数
采集一个网页允许等待的最长时间,响应时间长的网页采集建议调大此项
延迟抓取
单位秒,默认5,可填正整数
网页加载后要额外等待T秒再采集,适用于JS异步信息采集或响应时间长的网页
滚屏采集
1、否(默认)
2、是(展开子参数)
控制网页是否自动滚屏,不滚屏可加快速度,采集JS异步或长网页建议滚屏
              滚屏次数
默认2,可填正整数
数值越大滚屏越快
              滚屏速度
默认2,可填除0外的正负整数
填1或-1,速度不变,负整数为放慢,正整数为加快
控制翻页
1、否(默认)
2、是(展开子参数)
适用于网址里有翻页采集的情况
              采集页数
默认1,可填正整数
在不超过允许访问的总页数下,可以输入想要采集的页数
增量采集
1、否(默认)
2、是(展开子参数)
控制是否只采新增网址,适用于层级采集,只需对采集下级网址的任务设置此项。
              页面下级网址重复比例达**%跳出翻页
默认80,可输入0-100的整数
填100%会翻页到最后,填0-99%页面达到该重复比例即跳出翻页
允许加载图片
1、否
2、是(默认)
若网页不加载图片后,不影响信息完整性,可适当提高速度
允许加载插件
1、否
2、是(默认)
若网页不加载插件后,不影响信息完整性,可适当提高速度
允许加载JS
1、否
2、是(默认)
若网页不加载JS后,不影响信息完整性,可适当提高速度
自动关闭站点弹窗
1、否(默认)
2、是
关闭采集站点的广告弹窗或推广弹窗
周期设置
周期开关
1、关闭(默认)
2、开启(展开子参数)
开启后将在指定时间点,重采一遍该任务下的所有网址,层级采集只需对第一级任务设置此项
              周期类型
1、指定时间(默认)
2、按天
3、按小时
4、按分钟(VIP权限)
切换类型,可设定不同时间粒度的周期间隔
              选择日期
可选择未来的日期
表示在未来某一天执行一次周期采集
              选择周期
1、小时:默认24,可选1-24
2、分钟:默认60,可选1-60
3、天:默认选中周一至周日,周期为每天
表示间隔多长时间执行一次周期采集
              开始时间
1、小时:默认00,可选00-23
2、分钟:默认00,可选00-59
表示在周期当天**时**分执行周期采集
              执行方式
1、不管是否全部采集完,到时间立刻执行下一轮周期采集(默认)
2、等待全部采完后再执行下一轮周期
如果任务采集一遍全部网址所花时间小于所设定的周期间隔,则选默认项即可,否则选第二个选项
网站登录设置
登录账号

如需采集过程中自动登录,则填入目标站点的登录账号
登录密码

如需采集过程中自动登录,则填入目标站点的登录密码
账号框

如需采集过程中自动登录,则填入目标站点的账号输入框的xpath定位
密码框

如需采集过程中自动登录,则填入目标站点的密码输入框的xpath定位
验证码框

如需采集过程中自动登录,并且有图片验证码的,则填入目标站点的验证码输入框的xpath定位
验证码图片位置

如需采集过程中自动登录,并且有图片验证码的,则填入目标站点的图片验证码所在位置的xpath定位
登录按钮

如需采集过程中自动登录,则填入目标站点的登录按钮的xpath定位
登录成功标志

如需采集过程中自动登录,则填入目标站点登录成功后的提示信息的xpath定位
其它设置
由关键内容触发采集
1、否
2、是(默认)
在延迟和滚屏之后,判断网页关键内容出现就执行采集,可适当提高速度
跳出重复翻页
1、否
2、是(默认)
适用于翻页情况,连续重复同一页3次即可判断跳出
全程模拟点击
1、否(默认)
2、是
采集网页时模拟鼠标移动
高仿真模拟点击
1、否(默认)
2、是
采集网页时模拟鼠标交互

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2019-5-23 18:46

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 13:11