要解决你的规则问题,要做如下修改:
1、修改第二级规则:
网页上隐藏的回复是存在html里的,不用点击 See 1 more reply... ,就可以直接采到,要做如下图的修改,第一张图是对第二级规则的整理箱顶节点做上定位标志映射,限定采集范围;第二张图是修改comment部分的结构,再对范围、comment、评论内容都做上定位标志映射,精确采集范围。这样设置就可以直接采到所有的评论信息,并且不会重复。
2、修改第一级规则:
把第一级规则的点击动作从点击 See 1 more reply... 改为点击 show more,定位表达式(如下)要锁定唯一一个节点,因为第一级规则最初的点击动作锁定了4个点击对象,其中两个是一直存在于网页上的,所以也导致了重复采集。
共 9 个关于本帖的回复 最后回复于 2017-1-19 16:57