自定义xpath和嵌套样例复制均无效

xandy

网址：https://deyunsp.tmall.com/category.htm?spm=a1z10.1-b.w5001-14278955949.3.dwiDX4&search=y&scene=taobao_shop
问题：要采集网页里头的奶粉产品信息（price、name、sale-num、comment-num），如图所示，本店推荐的奶粉产品的class和上面列表产品的class是一样的，所以无法进行区分，我要怎么做才能只采集列表产品（不包括推荐的产品）。

尝试对抓取的内容做自定义xpath，选择专有定位，例如：

price

内容表达式：.//*[contains(@class,'c-price')]/text()

定位表达式：*[@class='pagination']/preceding-sibling::*[contains(@class,'item')]/dl

在XPATH搜索框能够相应找到，但是，测试结果只有第一个奶粉的产品信息，why?

数据规则如下：

xandy · 发表于 2016-9-1 18:04:15

规则名：JD_shop

Fuller · 发表于 2016-9-1 22:42:32

这个网页稍微有些麻烦，看下图

在DOM上所有商品都在同一级，而且他们的class也完全一样，用普通的内容映射或者定位标志映射都很难分开。

中间两个DIV分别是翻页区和“本店内推荐”标题，可以利用他们进行区分。

我想到的是直接修改抓取规则。

自定义xpath和嵌套样例复制均无效

本帖子中包含更多资源

共 2 个关于本帖的回复最后回复于 2016-9-1 22:42

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

自定义xpath和嵌套样例复制均无效

本帖子中包含更多资源

共 2 个关于本帖的回复 最后回复于 2016-9-1 22:42

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2016-9-1 22:42