XML文件结构

2016-10-27 17:45| 发布者: ym| 查看: 21930| 评论: 1

摘要: 相信大家在采集数据后都会发现，集搜客的爬虫软件抓取的网页数据是以XML格式保存下来的，可能有一部分人看不懂XML数据文件。所以本文以一个XML文件为例子，给大家讲讲XML文件结构内各个标签（紫色字体）的意思。 XML ...

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

相信大家在采集数据后都会发现，集搜客的爬虫软件抓取的网页数据是以XML格式保存下来的，可能有一部分人看不懂XML数据文件。所以本文以一个XML文件为例子，给大家讲讲XML文件结构内各个标签（紫色字体）的意思。

XML文件是由成对的标签组成的，分为系统标签和自定义标签，首先讲解一下系统标签的含义和作用（红框部分）：

extraction：提取信息的操作，包含采到的所有标签信息。
clueid：指当前网址的线索编号，每条网址都具有唯一的编号。如果是涉及自动翻页的情况，它的clueid就不变了，我们可以根据这个找到所有页码的数据。
fullpath：指线索网址，就是添加到规则中的初始网址。
realpath：指实际访问的网址。有些网址通过浏览器访问会发生变化，所以fullpath和realpath分别记录变化前和变化后的网址。
theme：指主题名，即制作规则时输入的主题名。
middle：指规则编号，默认为规则_1，做规则时也可以自定义。
createdate：记录数据抓取下来的日期。
pageno：记录翻页次数。如有，则默认从0开始。
actionno：记录规则中连续动作的各层动作的完成次数，识别-+-符号就能分割出相应层次动作的执行次数。如有，则默认从0开始。
actionvalue：记录特定动作类型执行后的结果，识别-+-符号就能分割出相应层次动作的执行结果。比如输入动作的关键词、选择动作的选中项是会默认记录在actionvalue里。
prestamp：记录抓取上级线索时的爬虫名称、窗口名称和时间戳，中间用-+-符号分割，用于连续输入和飞掠模式的上下级主题之间的关联。
currentstamp：记录抓取当前结果文件的爬虫名称、窗口名称和时间戳，中间用-+-符号分割，用于连续输入和飞掠模式的上下级主题之间的关联。
bucketName：指整理箱的名字，由用户自拟。
uri：即统一资源标识符，表示请求服务器的路径。