连续动作：设置自动返回上级页面

2017-1-16 10:17| 发布者: ym| 查看: 20858| 评论: 2

摘要: 一、操作步骤如果网页上的超链接没有独立网址，而是一段JavaScript代码，比如：onclick=”javascript:void(0)”，这种情况，想要采集超链接网页里的信息，只能用连续动作的点击动作，如果点进去超链接网页并采集到 ...

配套软件版本：V9及更低 集搜客网络爬虫软件

新版本对应教程：V10及更高 数据管家——增强版网络爬虫 的对应教程是《自动回退返回上级页面——以懂车帝采集为例》

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤

当网页上的超链接没有独立网址，而是一段JavaScript代码，比如：onclick=”javascript:void(0)”，点击是把当前网页切换成新网页的信息，这种情况，想要采集超链接网页里的信息，只能用连续动作的点击动作，点进去超链接网页里采集到信息后，还要返回到上级页面才能继续点击下一个超链接，这种情况是必须要用到连续动作的回退动作。

下面就以GooSeeker论坛为例，讲解从论坛列表依次点进每个帖子里，抓取帖子的详情数据，并自动翻页采集。

注意：对于具有独立网址的超链接，直接做层级采集是最简单的方法。如果没有独立网址，并且点击是弹出新的页签窗口，这种情况要用飞掠模式，而不是回退动作，操作可参考教程《飞掠模式：追踪弹窗采数据》

二、案例规则+操作步骤

第一级采集规则：回退教程1
第一级样本网址：http://www.gooseeker.com/doc/
第一级采集内容：标题、作者、时间
第二级采集规则：回退教程2
第二级样本网址：http://www.gooseeker.com/doc/thread-886-1-1.html
第二级采集内容：标题、作者、内容

第一步：定义第一级规则

1.1，打开集搜客网络爬虫，输入要采集的网址并Enter，加载出完整网页后，再点击右上角的“定义规则”，输入规则主题名，点击“查重”，提示“该名可以使用”，就可以开始做标注映射了。

注意：这里的截图和文字说明都是集搜客网络爬虫版本，如果您安装的是火狐插件版，那么就没有“定义规则”按钮，而是应该运行MS谋数台。

1.2，双击网页上想要采集的信息，就会弹出小浮窗，输入标签名称，再打勾确认，就可以把信息映射到整理箱中，首次标注要先输入整理箱名称。这里是抓取了帖子的标题、作者、时间，并对标题设置关键内容。

1.3，想要把一整页上每一条帖子的信息都采集下来，就要做样例复制，操作可参考教程《采集列表数据》

1.4，最后对整理箱的顶节点做定位标志映射，精确采集范围，也可以对其他标签都做上定位标志，提高规则的适应性，操作可参考教程《定位标志精确采集范围》。

第二步：连续动作与翻页

2.1设置点击动作

2.1.1，新建动作，选择“点击”动作类型。

2.1.2，填写第二级规则主题名，点击“谁在用”查看是否已被占用。这里和层级抓取相同，填写的是预定名称，稍后制作二级规则。

2.1.3，获取定位表达式。点击帖子标题定位，然后用“显示xpath”功能，选择其中一种模式，就可以得到xpath，这里是选择偏好@class得到的xpath。

2.1.4，检查xpath有效性。xpath生成后点击“搜索”检查是否满足需求，如发现的DOM节点总数为20，与网页上的帖子数量一致，证明xpath是有效的，点击“后一个”可查看xpath定位到的每个节点。

2.1.5，将xpath输入到定位表达式。将检验后正确的xpath粘贴到定位表达式处，动作名称可填可不填。

2.1.6，输入动作名称，方便修改动作。

注意：点击动作的高级设置包括了额外延时、起点、跨度等参数，大家可以先不设置，根据需要再设置，参数意义请看《连续动作的界面介绍》

2.2设置翻页

2.2.1，要在第一级规则设置翻页，因为它抓的是列表页面，包含了翻页区域的范围，而第二级规则抓的是帖子详情里的信息，不包括翻页区域。

2.2.2，在爬虫路线里新建“记号线索”，找到翻页区块和记号值“下一页”所在的节点，分别做线索映射。详细操作参考教程《设置翻页采集》。

2.3保存规则

翻页和连续动作都设置完毕后，点击右上方“存规则”，保存好第一级规则，下面继续制作第二级规则。

第三步：定义第二级规则

3.1新建规则

3.1.1，保存好第一层规则后，点击MS谋数台左上方的“规则”菜单->”新建”，清空当前的工作台之后，输入样本网址，加载出完整网页后，再点击右上角的“定义规则”，开始建立第二级规则。

3.1.2，填写前面预定的第二级规则主题名，并点击“查重”，提示“***可编辑：是”，就可以使用该名称。

3.1.3，映射抓取内容。双击想要采集的网页信息，在弹出浮窗里填上标签名，然后打勾确认，这里是标注了标题、作者、内容，并把“标题”设置为关键内容。

3.1.4，对整理箱顶节点做上定位标志，精确采集范围。

3.2设置回退动作

3.2.1，新建连续动作，选择“回退”动作。回退动作在右边的下拉菜单中选择.

3.2.2，填写目标主题名，这里填写的是上级规则名称（第一级规则名），因为点击后回退到的是上级页面

注意：回退次数默认为1，表示回退到上一级页面。输入2或者以上的数字就是指回退2级前的页面或者更多。

3.3保存规则

做好整理箱的映射和回退动作的设置后，就可以点击右上角的“存规则”按钮。

第四步：爬数据

4.1，连续动作是连贯执行两级规则的，所以只需运行第一级规则。在DS打数机里搜索出第一级规则，点击“单搜/集搜”运行采集，就可以看到点击列表的第一条帖子之后，就切换成该帖子的详情页面，采集完帖子详情页面的信息后，再回退到列表页，继续点击第二条帖子，以此类推，直到当前页面的全部帖子都点击采集完，再翻到下一页，继续以同样的方式采集数据。

上篇文章：《连续动作：采集悬浮窗信息》下篇文章：《飞掠模式：追踪弹窗采数据》

若有疑问可以或