配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《自动回退返回上级页面——以懂车帝采集为例》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 一、操作步骤 当网页上的超链接没有独立网址,而是一段JavaScript代码,比如:onclick=”javascript:void(0)”,点击是把当前网页切换成新网页的信息,这种情况,想要采集超链接网页里的信息,只能用连续动作的点击动作,点进去超链接网页里采集到信息后,还要返回到上级页面才能继续点击下一个超链接,这种情况是必须要用到连续动作的回退动作。 下面就以GooSeeker论坛为例,讲解从论坛列表依次点进每个帖子里,抓取帖子的详情数据,并自动翻页采集。 注意:对于具有独立网址的超链接,直接做层级采集是最简单的方法。如果没有独立网址,并且点击是弹出新的页签窗口,这种情况要用飞掠模式,而不是回退动作,操作可参考教程《飞掠模式:追踪弹窗采数据》 二、案例规则+操作步骤
第一步:定义第一级规则 1.1,打开集搜客网络爬虫,输入要采集的网址并Enter,加载出完整网页后,再点击右上角的“定义规则”,输入规则主题名,点击“查重”,提示“该名可以使用”,就可以开始做标注映射了。 注意:这里的截图和文字说明都是集搜客网络爬虫版本 ,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台。 1.2,双击网页上想要采集的信息,就会弹出小浮窗,输入标签名称,再打勾确认,就可以把信息映射到整理箱中,首次标注要先输入整理箱名称。这里是抓取了帖子的标题、作者、时间,并对标题设置关键内容。 1.3,想要把一整页上每一条帖子的信息都采集下来,就要做样例复制,操作可参考教程《采集列表数据》 1.4,最后对整理箱的顶节点做定位标志映射,精确采集范围,也可以对其他标签都做上定位标志,提高规则的适应性,操作可参考教程《定位标志精确采集范围》。 第二步:连续动作与翻页 2.1设置点击动作 2.1.1,新建动作,选择“点击”动作类型。 2.1.2,填写第二级规则主题名,点击“谁在用”查看是否已被占用。这里和层级抓取相同,填写的是预定名称,稍后制作二级规则。 2.1.3,获取定位表达式。点击帖子标题定位,然后用“显示xpath”功能,选择其中一种模式,就可以得到xpath,这里是选择偏好@class得到的xpath。 2.1.4,检查xpath有效性。xpath生成后点击“搜索”检查是否满足需求,如发现的DOM节点总数为20,与网页上的帖子数量一致,证明xpath是有效的,点击“后一个”可查看xpath定位到的每个节点。 2.1.5,将xpath输入到定位表达式。将检验后正确的xpath粘贴到定位表达式处,动作名称可填可不填。 2.1.6,输入动作名称,方便修改动作。 注意:点击动作的高级设置包括了额外延时、起点、跨度等参数,大家可以先不设置,根据需要再设置,参数意义请看《连续动作的界面介绍》 2.2设置翻页 2.2.1,要在第一级规则设置翻页,因为它抓的是列表页面,包含了翻页区域的范围,而第二级规则抓的是帖子详情里的信息,不包括翻页区域。 2.2.2,在爬虫路线里新建“记号线索”,找到翻页区块和记号值“下一页”所在的节点,分别做线索映射。详细操作参考教程《设置翻页采集》。 2.3保存规则 翻页和连续动作都设置完毕后,点击右上方“存规则”,保存好第一级规则,下面继续制作第二级规则。 第三步:定义第二级规则 3.1新建规则 3.1.1,保存好第一层规则后,点击MS谋数台左上方的“规则”菜单->”新建”,清空当前的工作台之后,输入样本网址,加载出完整网页后,再点击右上角的“定义规则”,开始建立第二级规则。 3.1.2,填写前面预定的第二级规则主题名,并点击“查重”,提示“***可编辑:是”,就可以使用该名称。 3.1.3,映射抓取内容。双击想要采集的网页信息,在弹出浮窗里填上标签名,然后打勾确认,这里是标注了标题、作者、内容,并把“标题”设置为关键内容。 3.1.4,对整理箱顶节点做上定位标志,精确采集范围。 3.2设置回退动作 3.2.1,新建连续动作,选择“回退”动作。回退动作在右边的下拉菜单中选择. 3.2.2,填写目标主题名,这里填写的是上级规则名称(第一级规则名),因为点击后回退到的是上级页面 注意:回退次数默认为1,表示回退到上一级页面。输入2或者以上的数字就是指回退2级前的页面或者更多。 3.3保存规则 做好整理箱的映射和回退动作的设置后,就可以点击右上角的“存规则”按钮。 第四步:爬数据 4.1,连续动作是连贯执行两级规则的,所以只需运行第一级规则。在DS打数机里搜索出第一级规则,点击“单搜/集搜”运行采集,就可以看到点击列表的第一条帖子之后,就切换成该帖子的详情页面,采集完帖子详情页面的信息后,再回退到列表页,继续点击第二条帖子,以此类推,直到当前页面的全部帖子都点击采集完,再翻到下一页,继续以同样的方式采集数据。 上篇文章:《连续动作:采集悬浮窗信息》 下篇文章:《飞掠模式:追踪弹窗采数据》 |