连续动作概念：掌握JS动态网页信息采集

2016-12-29 15:38| 发布者: ym| 查看: 25038| 评论: 0

摘要: 下面会从连续动作的适用范围、动作类型、如何使用连续动作、连续动作的循环执行说明等四个方面，全面地介绍连续动作的知识点。一、连续动作的适用范围越来越多的网页使用了JS动态技术，即网页信息不是立马显示出来 ...

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

下面会从连续动作的适用范围、动作类型、如何使用连续动作、连续动作的循环执行说明等四个方面，全面地介绍连续动作的知识点。

一、连续动作的适用范围

越来越多的网页使用了JS动态技术，即网页信息不是立马显示出来的，而是要经过点击或输入之类的动作才能浏览到想要的信息，例如条件筛选、输入关键词搜索、滚屏加载、点击目录等等，而这类网页通常是没有独立网址的，不能对它直接采集，只能设置连续动作来实现相应鼠标动作的自动执行，从而加载出想要的信息然后采集下来。

动作前后的网页地址没有变化，即想要采集的网页信息是没有独立的网址入口。
需要连续多次的鼠标动作（点击、输入、筛选等等）才能浏览到想要的网页信息。

二、连续动作的动作类型

连续动作类型是逐步增加的，截止到V8.1.0版爬虫，已经实现了10种类型，后续版本还会持续增加新类型。下面是各个动作类型的使用场景简介：

1，悬浮：把鼠标移动到网页上的某些内容上，就会弹出一个窗口，想要采集弹窗里面的信息，就要设置悬浮动作。

2，点击：如果要点击网页上的按钮或者是超链接，就要设置点击动作。

3，双击：与点击动作相似，是连点两下鼠标。

4，滚屏：对于页面很长甚至是加载不到尽头的瀑布流网页，想要采集到更多信息，就要设置滚屏动作，尽可能地滚屏加载出更多信息。

5，输入：想要在搜索框上自动输入关键词，以获取到搜索结果的信息，例如在百度上输入关键词进行搜索。

6，选择：用于网页上的下拉菜单的点选，能够实现从指定选项开始逐个选项的点击。

7，提交：专门用于点击提交按钮，例如百度上输入关键词后还要点击搜索按钮。

8，打码：集搜客爬虫与打码平台对接，把打码平台返回来的验证码自动输入和提交，适用于需要输入验证码的网页。

9，回退：就是浏览器上的回退按钮，看了一个网页，想返回到之前的网页，就用回退动作。

10，滚轮：前面有个滚屏，就是滚动网页右边的滚动条显示更多内容。而滚轮是完全模拟鼠标滑轮的动作，鼠标放在网页上哪个区域，滚轮就作用于哪个区域。

三、如何使用连续动作

连续动作的作用是模拟人在浏览网页时的各种操作，从而加载出想要的网页信息，最后再进行采集，所以，总体上可以分为两大操做步骤，第一步是模拟人浏览网页的操作，通过在规则里设置连续动作来实现；第二步是采集数据，像采集静态页面那样，直接对想要的信息做采集规则。

关键是第一步，要弄清楚操作范围、设置哪些动作类型、动作的顺序以及要做多少个规则。大家可以先在浏览器上进行信息浏览，把操作范围以及动作类型和顺序整理出来，再做规则设置连续动作。

四、连续动作的循环执行说明

上面说过了，在连续动作里只需要设置操作范围、动作类型、动作顺序，不用管动作执行的循环，因为集搜客爬虫会根据xpath锁定的动作对象数量，自动循环执行，这里的循环是以一个或多个动作类型的组合为单位的，所以，不用纠结在怎样设置循环上面。

在《如何把抓到的信息与动作步骤对应起来》一文中，实现了区域两级目录的自动点击然后分类采集，该案例在连续动作里只需设置两个点击动作，第一个点击动作是用于点击一级目录，通过xpath锁定每一个大区域（紫色框，共锁定20个对象），第二个点击动作是用于点击二级目录，通过xpath锁定每一个子区域（红色框，共锁定78个对象），最后，爬虫采集时就会以这两个点击动作为循环单位自动点击一级、二级目录，具体的执行过程如下：