集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

飞掠模式：追踪弹窗网页采数据——以百度百家网为例

2016-10-21 11:00| 发布者: ym| 查看: 17270| 评论: 0

摘要: 一、操作步骤集搜客的“飞掠模式”是专门针对那些没有独立网址的弹窗网页，就是指点击之后会弹出一个新页签但网址却不变。而“飞掠模式”可以模拟人的操作，打开一个弹窗采集完之后再打开下一个弹窗继续采集，从而 ...

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤

集搜客的“飞掠模式”是专门针对那些没有独立网址的弹窗网页，就是指点击之后会弹出一个新页签但网址却不变。而“飞掠模式”可以模拟人的操作，打开一个弹窗采集完之后再打开下一个弹窗继续采集，从而把弹窗网页信息都采集下来。

下面用百度百家为案例，虽然它的弹窗网页是有独立网址的，这种情况最简单的采集方法就是做层级采集，但是为了给大家演示飞掠采集，我们就把它当做是网址不变吧。操作步骤如下：

二、案例规则+操作步骤

第一级规则：百度百家列表（点击可下载）
第一级样本网址：http://baijia.baidu.com/
第一级采集内容：标题
第二级规则：百度百家文章采集（点击可下载）
第二级样本网址: http://jincuodao.baijia.baidu.com/article/652161
第二级采集内容：标题、作者、发布时间、阅读数、正文

第一步：打开网页

1.1，打开GS爬虫浏览器，输入网址等待网页加载完成，再点击“定义规则”，然后输入主题，最后查重一下，主题名不能重复。

第二步：定义第一级规则

2.1，双击想采的信息，打勾确认。第一级规则可以随意标注一条信息，目的是让爬虫判断是否执行采集。

2.2，本案例是点击每一篇文章标题，然后追踪弹出的网页来采数据，需要写出定位到每个点击对象的xpath表达式。我们可以用“显示xpath”功能来自动定位，找到能够定位到每一个动作对象的xpath。但是对于不太结构化的网页，“显示xpath”就定位不到全部动作对象了，需要自己编写合适的xpath，可以看看xpath教程来掌握。