|
上图使用了缺省设置——偏好class(注意:老版本缺省是偏好id),生成的翻页XPath规则很短,就是从翻页区(div[@class='pager'])为起点,这样的规则适应性很强。
而上图,如果使用偏好id,生成的翻页XPath的起点是div[@class='forum'],这个块很大,很容易受到网页结构变化的影响。
其实,线索的定位映射和记号映射都没有变化,只是因为定位选项变化了,偏好class的话,爬虫从定位映射的那个DOM节点(包括自己)往上找一个含有class的节点,而偏好id,是往上找一个含有id的节点,起点代表的网页块越大越不好。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 2 个关于本帖的回复 最后回复于 2016-10-17 18:54