快捷导航

数据规则怎么看

2016-10-28 10:57| 发布者: ym| 查看: 1313| 评论: 0

摘要: 数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是点击“测试”-“数据规则”,如下图。 ...

数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是集搜客网络爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是做好规则后,再点击“测试”,在输出结果窗口里点击“数据规则”页签,如下图。


查看数据规则是为了能在原来的基础上优化程序,有很多实现的方法,例如对整理箱的抓取内容定位标志映射自定义xpath,这里就不细说了,下面讲解一下数据规则的结构。

1、整理箱的起点路径

在xsl:apply-template select="***",双引号里面的第一个xpath路径就是整理箱的起点路径,and后面是勾了关键内容的标签的xpath路径。起点路径限定了整理箱的采集范围,其他标签的xpath路径必须包含在它里面,才可以被定位和采集。

2、每个标签的xpath路径

只要看标签下的第一条程序xsl:value-of select="***”,双引号里面就是它的xpath路径。


Tips1:爬虫路线也是有规则的,除下级线索外,设置其他类型的爬虫路线后,就会线索规则页签里生成一个路线程序。定义好爬虫路线后点击“查看规则”,在线索规则里,标签里面的就是该路线的xpath路径。


Tips2:无论是数据规则还是线索规则,得到的xpath都是越短越好,因为越短的xpath所查找的路径层级就越少,能大大减少由于网页结构变动而定位失败的情况,通常做定位标志映射可以优化xpath路径。


上一篇文章:《XML文件结构》                                                                     下一篇文章:《采集网页html源码》


若有疑问可以集搜客爬虫软件

鲜花

握手

雷人

路过

鸡蛋
上一篇:XML文件结构下一篇:采集网页html源码

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-22 06:30