注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 设置连续动作就是为了模拟人在浏览网页时的各种操作,从而加载出想要的网页信息,最后再进行采集,所以,总体上可以分为两大操作步骤,第一步是模拟人浏览网页的操作,通过在规则里设置连续动作来实现;第二步是采集数据,像采集静态页面那样,直接对想要的网页信息做采集规则。 关键是第一步,需要弄清楚操作范围、设置哪些动作类型、动作的顺序以及要做多少个规则。大家可以先在浏览器上进行信息浏览,把操作范围以及动作类型和顺序整理出来,再做规则设置连续动作。下面会用四个典型场景为例子,演示如何找到合适的连续动作组合。 一、中国知网——输入关键词检索
定义采集规则的相应步骤如上图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集检索出来的文献信息。 其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。 二、开心保——采集不同年龄不同保险期限的价格
定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集点击后的价格信息。 主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。 三、新浪微博——采集搜索的各博主资料
定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集浮窗里的博主信息。 其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。 四、中原银行——查询广州市内中国银行信息
定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集筛选条件后的银行信息。 其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。 上篇文章:《连续动作的界面介绍》 下篇文章:《数据采集、爬虫路线、连续动作三者的执行顺序》 |