11#
wangyong 版主 发表于 2018-4-16 17:53:16 | 只看该作者
本帖最后由 wangyong 于 2018-4-16 17:57 编辑

要自定义xpath的话,首先规则要修改成嵌套样例复制的结构,对每张图做样例复制,再去自定义xpath,参考这个教程:https://www.gooseeker.com/doc/article-151-1.html


举报 使用道具
12#
bsh331400 中级会员 发表于 2018-4-16 18:04:09 | 只看该作者
wangyong 发表于 2018-4-16 17:53
要自定义xpath的话,首先规则要修改成嵌套样例复制的结构,对每张图做样例复制,再去自定义xpath,参考这个 ...

能否针对我的实例看下我的规则:健客网第三层2,这个没有分区,怎么做分区,我看他的大小写图片链接都是放在<a xmlns="http://www.w3.org/1999/xhtml" shape="rect" rel="{gallery: 'gal1', smallimage: '//image.jianke.com/suo/upload/prodimage/201703/201736113943103!320x320.jpg',largeimage: '//image.jianke.com/upload/prodimage/201703wm/201736113943103.jpg'}" title="金刚丸(汉源)" class="zoomThumbActive" style="background-color: rgb(255, 255, 153);">
                                    
                        <img width="50px" height="50px" alt="金刚丸(汉源)" src="//image.jianke.com/suo/upload/prodimage/201703/201736113943103%2150x50.jpg" style="" />
                            是不是要去出largeimage的链接地址


举报 使用道具
13#
wangyong 版主 发表于 2018-4-16 18:07:18 | 只看该作者
你先按照上面嵌套样例复制的教程修改后,才能自定义xpath,不能映射整个的区块节点
举报 使用道具
14#
bsh331400 中级会员 发表于 2018-4-17 09:43:30 | 只看该作者
wangyong 发表于 2018-4-16 18:07
你先按照上面嵌套样例复制的教程修改后,才能自定义xpath,不能映射整个的区块节点 ...

您说的嵌套样例复制在哪里需要做,我只将小图映射到IMG节点并做了样例复制,如下图

无标题.png (59.42 KB, 下载次数: 422)

无标题.png
举报 使用道具
15#
wangyong 版主 发表于 2018-4-17 09:51:28 | 只看该作者
嵌套样例复制就是这样做,现在可以对图片第二层这个抓取内容做自定义xpath了
举报 使用道具
16#
bsh331400 中级会员 发表于 2018-4-17 09:57:26 | 只看该作者
wangyong 发表于 2018-4-17 09:51
嵌套样例复制就是这样做,现在可以对图片第二层这个抓取内容做自定义xpath了 ...

思路是拼出大图的链接地点吗?我还是不明白麻烦直接指导下,因为我不知道大图和小图的链接放在哪个具体的节点
举报 使用道具
17#
wangyong 版主 发表于 2018-4-17 10:02:00 | 只看该作者
只有小图的节点,就是你现在抓的这个,大图是要自己构造
举报 使用道具
18#
bsh331400 中级会员 发表于 2018-4-17 10:51:25 | 只看该作者
wangyong 发表于 2018-4-17 10:02
只有小图的节点,就是你现在抓的这个,大图是要自己构造


是不是这样://image.jianke.com/suo/upload/prodimage/201703/20173611408844!320x320.jpg',
largeimage: '//image.jianke.com/upload/prodimage/201703wm/20173611408844.jpg
我先讲地址拆分成第一部分固定的://image.jianke.com/upload/prodimage/
第二部分截取抓到的地址的感叹!的前部分,然后去取201703,再取/20173611408844,再拼接 第一部分+201703+wm/+20173611408844+.jpg
太长了,一直说xpath写错了
concat('//image.jianke.com/upload/prodimage/',substring-before(substring-after(substring-before(.//*[@class='zoomThumbActive']/img/@src,'!'),'prodimage/'),'/'),'wm/',substing-after(substring-after(substring-before(.//*[@class='zoomThumbActive']/img/@src,'!'),'prodimage/'),'/')+'.jpg')

举报 使用道具
19#
wangyong 版主 发表于 2018-4-17 11:45:57 | 只看该作者
做规则的时候对照着教程做,抓图片只映射@src就可以了,不需要勾高级设置里的抓取图片网址
举报 使用道具
20#
wangyong 版主 发表于 2018-4-17 11:52:19 | 只看该作者
映射@src后这个就是需要自定义的xpath
  1. concat(substring-before(./a/img/@src,'!'),'!600x600.jpg')
复制代码
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 09:50