11#
yangwenge 金牌会员 发表于 2018-3-28 11:21:59 | 只看该作者
本帖最后由 yangwenge 于 2018-3-28 12:09 编辑

这个只需要采集勾选规则后面的一个规格的链接,需要自定义xpath

//*[@class='dtl-inf-rur']/following-sibling::li[1]//@href
可以参考:《xpath常用函数》

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
bowieD 金牌会员 发表于 2018-3-28 11:22:29 | 只看该作者
本帖最后由 bowieD 于 2018-3-28 11:23 编辑
bsh331400 发表于 2018-3-28 11:06
我想过,但是觉得也不好采集啊,点击第一个规格的下级链接是javascript,有何具体步骤实现不
...

第一个规格的链接不用采集,因为打开页面默认选择的就是第一个规格,你只需要采集第一个规格相邻的后一个规格的链接,再作为下级线索给当前规则就可以了

把你的第一级规则的点击规格的动作删掉
举报 使用道具
13#
bsh331400 中级会员 发表于 2018-3-28 12:08:00 | 只看该作者
很感谢大家的回答,但是我的疑问是为啥我想把动作也采集下来,但是根据教程就是采集不到动作,比如下图价格是根据点击疗程动态得到了,但是对应的动作只采集到了第一个疗程

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
14#
bowieD 金牌会员 发表于 2018-3-28 12:10:55 | 只看该作者
bsh331400 发表于 2018-3-28 12:08
很感谢大家的回答,但是我的疑问是为啥我想把动作也采集下来,但是根据教程就是采集不到动作,比如下图价格 ...

按上面的方法就不需要采集动作了
举报 使用道具
15#
bsh331400 中级会员 发表于 2018-3-28 13:05:47 | 只看该作者
bowieD 发表于 2018-3-28 12:10
按上面的方法就不需要采集动作了

还是需要啊,只是规格不需要,疗程装还是要啊
举报 使用道具
16#
bowieD 金牌会员 发表于 2018-3-28 14:21:43 | 只看该作者
bsh331400 发表于 2018-3-28 13:05
还是需要啊,只是规格不需要,疗程装还是要啊

我的意思是说你按照上面的方法,就不需要刻意去采集动作了,因为上面的方法可以把规格,疗程装以及对应的价格都采集到
举报 使用道具
17#
yangwenge 金牌会员 发表于 2018-3-28 15:16:39 | 只看该作者
本帖最后由 yangwenge 于 2018-3-28 15:19 编辑

商品详情价格抓取规则中的商品规格xpath修改成://*[@id='text_specBox'] //*[@class='dtl-inf-rur']
商品疗程xpath修改成://*[@id='text_courseTreat'] //*[@class='dtl-inf-rur']
商品规格和商品疗程的内容映射需要将所以的选项包含在内
列如

规则一参考上面回复的修改,另外两个规格的价格是在规则一中采集的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
18#
bsh331400 中级会员 发表于 2018-3-29 10:43:26 | 只看该作者
yangwenge 发表于 2018-3-28 15:16
商品详情价格抓取规则中的商品规格xpath修改成://*[@id='text_specBox'] //*[@class='dtl-inf-rur']
商品 ...

问题一:商品疗程xpath修改成://*[@id='text_courseTreat'] //*[@class='dtl-inf-rur']这样定位不到dom节点
问题二:规则一怎么改还是不明白呢,价格是根据规格和疗程装一起变化的,在规则一里怎么采集,望指点

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
19#
yangwenge 金牌会员 发表于 2018-3-29 11:42:29 | 只看该作者
本帖最后由 yangwenge 于 2018-3-29 11:46 编辑
bsh331400 发表于 2018-3-29 10:43
问题一:商品疗程xpath修改成://*[@id='text_courseTreat'] //*[@class='dtl-inf-rur']这样定位不到dom节 ...

xpath定位不到是因为没有选择疗程装,采集的时候连续动作会点击疗程装,自然就能定位到了。
你不是要采集两种规格不选择疗程装时的价格吗?这个就需要在规则一中实现。
所以规则一中就只需要采集价格和规格以及商品规格的链接,规则一中的规格也需要使用上面的规格xpath。

举报 使用道具
20#
bsh331400 中级会员 发表于 2018-3-29 13:16:21 | 只看该作者
yangwenge 发表于 2018-3-29 11:42
xpath定位不到是因为没有选择疗程装,采集的时候连续动作会点击疗程装,自然就能定位到了。
你不是要采集 ...

商品疗程xpath修改成://*[@id='text_courseTreat'] //*[@class='dtl-inf-rur']是什么意思,能解释一下吗?这个@class='dtl-inf-rur节点是商品规格的啊,我现在抓商品疗程,是不是Xpath要写成商品疗程的定位范围啊//*[@id='text_courseTreat'] //*[@class='clearfix']

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-20 05:29