快捷导航

XML文件结构

2016-10-27 17:45| 发布者: ym| 查看: 2311| 评论: 1

摘要: 相信大家在采集数据后都会发现,集搜客的爬虫软件抓取的网页数据是以XML格式保存下来的,可能有一部分人看不懂XML数据文件。所以本文以一个XML文件为例子,给大家讲讲XML文件结构内各个标签(紫色字体)的意思。 XML ...

相信大家在采集数据后都会发现,集搜客的爬虫软件抓取的网页数据是以XML格式保存下来的,可能有一部分人看不懂XML数据文件。所以本文以一个XML文件为例子,给大家讲讲XML文件结构内各个标签(紫色字体)的意思。

XML文件是由成对的标签组成的,分为系统标签和自定义标签,首先讲解一下系统标签的含义和作用(红框部分):

  • extraction:提取信息的操作,包含采到的所有标签信息。
  • clueid:指当前网址的线索编号,每条网址都具有唯一的编号。如果是涉及自动翻页的情况,它的clueid就不变了,我们可以根据这个找到所有页码的数据。
  • fullpath:指线索网址,就是添加到规则中的初始网址。
  • realpath:指实际访问的网址。有些网址通过浏览器访问会发生变化,所以fullpath和realpath分别记录变化前和变化后的网址。
  • theme:指主题名,即制作规则时输入的主题名。
  • middle:指规则编号,默认为规则_1,做规则时也可以自定义。
  • createdate:记录数据抓取下来的日期。
  • pageno:记录翻页次数。如有,则默认从0开始。
  • actionno:记录规则中连续动作的各层动作的完成次数,识别-+-符号就能分割出相应层次动作的执行次数。如有,则默认从0开始。
  • actionvalue:记录特定动作类型执行后的结果,识别-+-符号就能分割出相应层次动作的执行结果。比如输入动作的关键词、选择动作的选中项是会默认记录在actionvalue里。
  • prestamp:记录抓取上级线索时的爬虫名称、窗口名称和时间戳,中间用-+-符号分割,用于连续输入和飞掠模式的上下级主题之间的关联。
  • currentstamp:记录抓取当前结果文件的爬虫名称、窗口名称和时间戳,中间用-+-符号分割,用于连续输入和飞掠模式的上下级主题之间的关联。
  • bucketName:指整理箱的名字,由用户自拟。
  • uri:即统一资源标识符,表示请求服务器的路径。


下面是自定义标签部分,即整理箱的标签,都是做规则时自己建立和命名的。

  • 商品:即整理箱的名字,与bucketName里记录的是一样的。
  • item:如果做了样例复制或有多个样例的话,xml中会出现多个item对。一对item代表一个样例的内容。 底层标签:标题、价格、累计标签、颜色、版本、购买方式,这些标签里面就是采集到的网页信息了。

案例:

上一篇文章:《采集图片网址并下载图片》                                                               下一篇文章:《数据规则怎么看》

若有疑问可以集搜客爬虫软件

鲜花

握手

雷人

路过

鸡蛋

相关阅读

发表评论

最新评论

评论 Fuller 2017-4-23 15:09
案例1:匹配悬浮动作产生的结果文件的方法:http://www.gooseeker.com/doc/thread-7215-1-1.html

查看全部评论(1)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-21 04:15