|
这么复杂的规则应该分析一下数据规则的脚本程序。可以看到最顶层容器的定位xpath是:
- //*[@id='plc_frame']/div/div
复制代码
拷贝到下面的输入框,点击搜索按钮,可以看到定位到页面最顶部的那个区域,说明要采集的大部分内容其实都没有在这个区域。这样很不合理。另外,如果换一下定位偏好变成“偏好class”,那么顶层容器节点的定位表达式还能简单一些。
最关键的是不要把顶层容器节点定位到顶部那个区域。如果不可避免,也不要用following-sibling这样的相对定位表达式,如果用这样的相对定位,顶部区域和下部内容区域之间只要多一个或者少一个DOM节点,规则就会失效。那么就要用上定位标志映射
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 7 个关于本帖的回复 最后回复于 2018-9-9 10:43