|
不能。
定位编号是临时生成的,在MS谋数台(或者GS爬虫浏览器定义规则模式),为了方便查找DOM节点,给每个节点按照顺序编号。如果下次重新加载这个网页,编号改变的可能性很大,比如,某个节点增删了属性,或者网页上增加了一个广告,那么后面的节点编号就改变了。
所以,这个编号只是反映当前的排序情况。
在做抓取规则的时候,尽量使用定位标志映射,那么生成的定位表达式将相对于这个定位标志,不再从html的最高节点开始顺序遍历,在XPath中就会尽量避免出现position()=xxx这样的函数,这样就能提高适应性,网页上即使有编号变化也不会影响规则的适应性。
如果不用定位标志映射,MS谋数台生成规则的时候也会尽量自动找一个,但是没有人工选择的那么合适,当加载规则的时候,可能会提示分析失败,而且会显出出来哪些抓取内容定位失败。 |
|
共 1 个关于本帖的回复 最后回复于 2016-12-11 16:39