本帖最后由 zla520 于 2017-8-5 00:33 编辑

我想采集到淘宝产品页面中的不同配置的价格和配置名。如何将采集下来的价格与配置名对应?
比如下图:
snipaste_20170805_002019.jpg
我想得到以下内容:
规格名                                     价格
脱毛+嫩肤=70万发                990.00元
脱毛+嫩肤+祛痘=105万发    1190.00元
脱毛=35万发                         790.00元


我写了以下规则,但有问题。无论如何设置,采集的配置名称混乱和重复。如下图。
QQ截图20170805002913.jpg

规则1名:淘宝搜索采集翻页1
规则2名:淘宝店铺采集点击2
规则3名:淘宝店铺采集内容3

请打开规则帮我分析下,看看是哪里设置错误?





举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-8-5 17:23

wangyong 版主 发表于 2017-8-5 10:22:52 | 显示全部楼层
a.png
要采每个商品配置对应的价格,就要抓取点击后的商品配置
每个商品配置在点击后@class中就会发生变化包含“selected”
点击后的规则中的抓取内容做上定位标志映射,把选中的商品配置抓取下来
举报 使用道具
zla520 初级会员 发表于 2017-8-5 15:21:47 | 显示全部楼层
wangyong 发表于 2017-8-5 10:22
要采每个商品配置对应的价格,就要抓取点击后的商品配置
每个商品配置在点击后@class中就会发生变化包含“ ...

43.jpg

抓取内容表达式://*[@class='J_Prop tb-prop tb-clear  J_Prop_Color ']/dd//*[@class='tb-txt']/a/span/text()
定位标志表达式://dl[contains(./dt/text(),'颜色分类')]//li//span//text()


这样设置不行呢。
举报 使用道具
wangyong 版主 发表于 2017-8-5 16:05:03 | 显示全部楼层
xpath写的不对,用谋数台里xpath检验器检查会定位到哪几个节点
举报 使用道具
zla520 初级会员 发表于 2017-8-5 16:42:06 | 显示全部楼层
wangyong 发表于 2017-8-5 16:05
xpath写的不对,用谋数台里xpath检验器检查会定位到哪几个节点

snipaste_20170805_163813.jpg

是查询到3个节点,但是采集下来的数据是相同的。
snipaste_20170805_164120.jpg


举报 使用道具
wangyong 版主 发表于 2017-8-5 16:44:09 | 显示全部楼层
每个商品配置在点击后@class中就会发生变化包含“selected”
举报 使用道具
zla520 初级会员 发表于 2017-8-5 17:10:10 | 显示全部楼层
wangyong 发表于 2017-8-5 16:44
每个商品配置在点击后@class中就会发生变化包含“selected”

做了点击后的规则中的抓取内容做上定位标志映射,也是相同数据的。使用这个表达式,也采集成相同的内容。请帮帮忙打打我的规则测试下。
//dl[contains(./dt/text(),'颜色分类')]//li//a//span//text()

举报 使用道具
zla520 初级会员 发表于 2017-8-5 17:14:38 | 显示全部楼层
wangyong 发表于 2017-8-5 16:44
每个商品配置在点击后@class中就会发生变化包含“selected”

每个商品配置在点击后@class中就会发生变化包含“selected”
这种情况应该怎么设置呢?


举报 使用道具
wangyong 版主 发表于 2017-8-5 17:23:49 | 显示全部楼层
观察选中节点和没选择节点的区别,写只定位到选中节点的xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:50