怎样为翻页线索选择合适的节点

2015-11-10 17:40| 发布者: ym| 查看: 10386| 评论: 0

摘要: 情景说明 翻页抓取是最常使用的功能,但是,虽然网页上看起来一样,html源代码中的结构和样式可能差别很大,html的标签元素是一层层嵌套的,如果点击的位置不合适,比如,点击了内层的标签元素,可能起不到作用,所 ...

情景说明

翻页抓取是最常使用的功能,但是,虽然网页上看起来一样,html源代码中的结构和样式可能差别很大,html的标签元素是一层层嵌套的,如果点击的位置不合适,比如,点击了内层的标签元素,可能起不到作用,所以要做适当的调整和实验。下面将重点讲解怎样选择合适的被点击元素。

为定点线索做线索映射

定点线索是最简单的类型,只需要为这类线索映射一次,也就是明确指定要点击的html元素节点。那么也不会出现下章所说的选择点击对象的问题。但是,记号线索灵活度更高,因为不明确指定被点击的节点,而且根据这个节点含有的标志,在一个范围中找,而线索映射就是用来划定一个这个范围的,所以,网页结构变化对记号线索的影响最小。

上图所示的案例是:

为定点线索做映射的要点是:

  • 红色椭圆框是可选的节点,用于线索映射
  • 绿色方框是不能使用的节点,如果用作线索映射,DS打数机点击翻页不起作用,翻页失败

使用定点线索,把那个节点映射给它就表示点击哪个节点。所以简单明了。

为记号线索选择合适的点击节点

如何翻页抓取网页数据——以采集天猫搜索列表为例》一文详细说明了记号线索的使用方法,上图所示的案例是:

为记号线索做映射的要点是:

  • 红色椭圆框是可选的节点,用于线索映射
  • 绿色方框是可选的节点,用于记号映射
  • 蓝色方框是不能使用的节点,如果用作记号映射,DS打数机点击翻页不起作用,翻页失败

记号映射分析

  • 如果选择蓝色方框中的记号,那么被点击的DOM节点就是包含这个记号的strong节点,经过测试,点击它没有反应
  • 如果选择绿色方框中的记号,被点击的节点是span[@class='pager_next'],经过测试,点击它能够实现翻页

总之,选择记号的时候要记住,包含记号的那个节点就是要被点击的节点

4

鲜花
1

握手

雷人

路过

鸡蛋

刚表态过的朋友 (5 人)

相关阅读

最新评论

GMT+8, 2024-12-4 20:02