|
我测试对比了一下数据管家和集搜客网络爬虫,确实不同。
分析DOM有以下发现:
你自定义了xpath,用以采集商品价格:
- .//*[@class='price-container clearfix']//dl[@class='price-promo']/dd/span/text()
复制代码 我用这个xpath能准确定位到DOM节点,如下图的dom结构,这里有两个text,价格在第二个
我把这个xpath拷贝到搜索输入框中,看看能搜到多少个text节点,发现总共其实有3个text节点。看来集搜客网络爬虫能把3个text节点合起来,而数据管家只采集了第一个
点击定义规则工作台上的“测试”按钮,选择弹窗中的“数据规则”页签,看到下面的内容
使用了copy-of命令,看来你勾选了高级设置中的网页片段或者纯文本内容,我查看了你的规则,确实勾了纯文本。
这样判断,数据管家在处理copy-of的时候没有把多个dom节点合起来。
下周的V1.7.3版本将改正这个bug
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 5 个关于本帖的回复 最后回复于 2020-7-17 10:12