数据规则怎么看

2016-10-28 10:57| 发布者: ym| 查看: 20131| 评论: 0

摘要: 数据规则就是随着标注和映射操作立刻生成的XSLT程序，它是爬虫采集网页数据的依据，主要涉及到xpath，大家在掌握html、xml、xpath的基础上，就能很好地理解XSLT程序。查看方法是点击“测试”-“数据规则”，如下图。 ...

数据规则就是随着标注和映射操作立刻生成的XSLT程序，它是集搜客网络爬虫采集网页数据的依据，主要涉及到xpath，大家在掌握html、xml、xpath的基础上，就能很好地理解XSLT程序。查看方法是做好规则后，再点击“测试”，在输出结果窗口里点击“数据规则”页签，如下图。

查看数据规则是为了能在原来的基础上优化程序，有很多实现的方法，例如对整理箱的抓取内容做定位标志映射或自定义xpath，这里就不细说了，下面讲解一下数据规则的结构。

1、整理箱的起点路径

在xsl:apply-template select="***"，双引号里面的第一个xpath路径就是整理箱的起点路径，and后面是勾了关键内容的标签的xpath路径。起点路径限定了整理箱的采集范围，其他标签的xpath路径必须包含在它里面，才可以被定位和采集。

2、每个标签的xpath路径

只要看标签下的第一条程序xsl:value-of select="***”，双引号里面就是它的xpath路径。

Tips1：爬虫路线也是有规则的，除下级线索外，设置其他类型的爬虫路线后，就会线索规则页签里生成一个路线程序。定义好爬虫路线后点击“查看规则”，在线索规则里，标签里面的就是该路线的xpath路径。

Tips2：无论是数据规则还是线索规则，得到的xpath都是越短越好，因为越短的xpath所查找的路径层级就越少，能大大减少由于网页结构变动而定位失败的情况，通常做定位标志映射可以优化xpath路径。

若有疑问可以或

上一篇：XML文件结构下一篇：采集网页html源码

相关分类