运用爬虫群,快速采集数据——调度设置操作介绍

2019-2-26 17:59| 发布者: Fuller| 查看: 17815| 评论: 3

摘要: 做好规则后,可以通过以下三种方式运行规则:1.在定义规则界面,直接点击右上角“采数据”按钮。2.在DS打数机界面,用单搜/集搜启动采集。3.在会员中心调度规则,用爬虫群采集数据。前两种方式在前面的教程讲过了。 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《启动数据采集


注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

做好规则后,可以通过以下三种方式运行规则采数据:

1. 在定义规则界面,直接点击右上角“采数据”按钮。

2. 在DS打数机界面,用单搜/集搜启动采集。

3. 在会员中心调度规则,用爬虫群采集数据。

前两种方式在前面的教程讲过了。这两种采集方式主要的缺点是,要手动导入采集结果xml文件,操作步骤比较多,麻烦。第三种方式,爬虫群方式在采集过程中就会自动把数据入库,用户只需在会员中心导出EXCEL文件即可。而且爬虫群方式还可以做很多高级的设置,比如限制翻页数量,增量采集,定时周期采集等等,这些是前两种方式没有的。

那么,怎样运行爬虫群来采集数据?

一、进入会员中心

做好规则后并保存规则后。点击网址输入框后面的“普通浏览”按钮,进入普通浏览模式。在地址输入栏输入官网网址https://www.gooseeker.com,然后点击右上角的用户名进入会员中心。

二、进入规则管理

进入会员中心->任务管理,在左侧单击选中任务,进入到这个任务的管理页面,这里可以查看任务的采集执行情况、管理线索网址等。

三、调度规则

在任务管理页面,点击“调度设置”页签,进入这个规则的调度设置,各个参数的介绍请见《调度设置参数说明》

3.1.  抓取步骤

采集数据和自动入库两个步骤都已经打勾选中,一般不用改动。爬虫在采集数据的时候就会自动把数据入库,我们在会员中心->数据管理中,就可以直接导出打包好的excel数据。注意,不再需要手工导入XML。

3.2. 任务分配设置

对于初学者来说,上图的任务分配设置里,前面两个参数可以先不用管它。主要看第三个参数:并发爬虫窗口数。比如设为5,那么这个任务运行起来后,在同一台电脑上最多可以5个爬虫窗口同时爬数据,如果登录了N台电脑运行爬虫,那就是最多可以5*N个爬虫窗口同时爬数据。

注:并发爬虫窗口数大于2的时候,要先在打数机进行爬虫群窗口的配置。怎样在打数机进行爬虫群配置?在浏览器右上方点击“DS打数机”按钮,进入打数机管理窗口。

点击爬虫群-配置-添加,比如你想要5个爬虫窗口并行爬数据,那么在这里添加5个爬虫(线程),而且给每个爬虫起个名字(随便起)。打数机这里设置好以后,点击运行全部,可以看到5个爬虫窗口弹出来。注:每个爬虫线程后面的自启动,如果选中,那么打开打数机后,这个爬虫窗口会自动弹出来。

再到会员中心,把并发爬虫窗口数设置成5。如果不需要做采集设置,那设置到这里就结束了,点击确认。如果需要采集设置,比如翻页次数,增量采集,再继续下面的采集设置。

3.3. 采集设置

采集设置里,对初学者来说,最有用的依次是滚屏采集、控制翻页、增量采集。

爬一个有很多页的列表页,比如1000页,如果只想爬前面的30页,控制翻页选择“是”,然后填入网址的翻页次数。等采完指定的翻页数量,爬虫就停止采集。如果选中不限制翻页,爬虫会把这1000页采集完才停止。

一般网页比较长,或者加载比较慢的时候,滚屏采集选择“是”,设置成大于1的数,滚屏次数越大,采集越慢。

对于设了下级线索的层级采集任务,如果需要增量采集,就要对采集下级网址的那一级任务(通常是列表网页)设置增量采集,增量采集选择“是”就行,重复比例根据情况填写,一般默认80%,填100%就会从头到尾采完一遍列表,再把增量线索传给下级规则。

3.4. 周期设置

如果需要做定时采集或周期采集,对于层级采集的任务,只要对第一级的任务设置这个周期,下级任务就不用设置了。周期设置就要选择“是”,然后选择周期类型,再设定开始日期、开始时间、周期间隔。

3.5.启动爬虫群

调度设置完成后,点击页面下方的绿色按钮“确认”,就可以点击“启动爬虫群”采集了,默认会启动2个爬虫群窗口。如果需要打开超过2个爬虫群窗口,可以在DS打数机->爬虫群菜单->配置里,设置自启动N个爬虫群窗口或手工启动多个爬虫群窗口,参考前面3.2步骤。(注:爬虫窗口也称之为DS打数机窗口)

3.6.调度状态管理

调度设置完成后,如果不需要了,可以点击“删除调度”;如果不想网址被爬虫群窗口执行,可以点击调度图标“暂停调度”。

四、导出数据

采集完成后,在会员中心-数据管理菜单里选中任务,进入到数据管理页签,如果有未导出的数据,就可以点击“导出数据”,然后导出excel表格数据。在这里也可以查看到数据的入库情况。

3

鲜花
1

握手

雷人

路过

鸡蛋

刚表态过的朋友 (4 人)

发表评论

最新评论

评论 Fuller 2019-12-10 09:00
13311599590: 爬虫群,是统一管理多个规则,而不是一个规则拆分成几个窗口进行采集是吧?
统一管理体现在会员中心的界面上,而爬虫群根本的目的是把任务拆分成很多窗口同时采集
评论 13311599590 2019-12-10 01:35
爬虫群,是统一管理多个规则,而不是一个规则拆分成几个窗口进行采集是吧?
评论 gracewlh 2019-7-30 11:49

查看全部评论(3)

GMT+8, 2024-10-16 15:58