集搜客GooSeeker网络爬虫

标题: 为什么我的连续动作只抓取了第一个元素 [打印本页]

作者: dukewang666    时间: 2017-11-13 10:41
标题: 为什么我的连续动作只抓取了第一个元素
今天我使用连续动作点击页面上的一个缩略图,然后抓取上面的一个大图,已经设置好了xpath,而且也显示了20条数据, 但是为什么在执行的时候,只把第一个抓了20次,没有抓后面的那20个啊

页面是这样的

[attach]8335[/attach]

这是网址
https://www.potterybarn.com/products/turner-leather-sofa-collection/?pkey=csofas-all&isx=0.0.0
这是xpath
//*[@class='scroller-container horizontal ']//*[@class='panel']/li

作者: yangwenge    时间: 2017-11-13 10:44
规则名多少?
作者: dukewang666    时间: 2017-11-13 10:48
本帖最后由 dukewang666 于 2017-11-13 11:05 编辑

规则名是  sofas_details
作者: umsung    时间: 2017-11-13 11:16
本帖最后由 umsung 于 2017-11-13 11:33 编辑

1,缩略图和大图的@src节点的值是一样的,直接对缩略图做样例复制抓取缩略图的@src值就行了,不需要做连续动作
2,如果想要用连续动作抓大图,应该做两级规则,第一个规则定义连续动作,目标主题名对应第二级规则,第二级规则再抓取大图的@src值。

作者: dukewang666    时间: 2017-11-13 11:38
@umsung
1.二级规则我定了
2.缩略图我下载了 确实跟大图不一样
作者: umsung    时间: 2017-11-13 12:04
本帖最后由 umsung 于 2017-11-13 12:08 编辑
dukewang666 发表于 2017-11-13 11:38
@umsung
1.二级规则我定了
2.缩略图我下载了 确实跟大图不一样

1,第二级规则在哪呢? 第二级主题名要与第一级的目标主题名对应一致
2,把缩略图的@src最后的 “-r“  改成”-c“ 就是大图的地址了。


作者: dukewang666    时间: 2017-11-13 12:49
本帖最后由 dukewang666 于 2017-11-13 12:50 编辑

@umsung

抱歉 规则名写错了.....手残
应该是这个规则名sofas_detail它的二级规则名是sofas_details2 这个是抓大图的规则

作者: umsung    时间: 2017-11-13 14:26
1,直接用样例复制采集缩略图的@src,然后把缩略图的@src最后的 “-r“  改成”-c“ 就是大图的地址了。不用连续动作那么麻烦。
2,你的网址加载比较慢,如果用连续动作采集的话可能是不好实现。
试试这个xptah   .//*[@id='_scroller0']/div[position()=2]/ul/li   
  最好使用第一种方法,别用连续动作。

作者: dukewang666    时间: 2017-11-13 15:25
好的 我试试你那个xpath 关键是第一个图片路径格式基本相同 但是其他的都不一样了
还有个问题大神
我的那个xpath哪里有问题啊?
作者: dukewang666    时间: 2017-11-13 15:31
@umsung 大神
刚刚试了下您那个xpath 貌似不行啊 一直抓取第一个
作者: umsung    时间: 2017-11-13 16:26
本帖最后由 umsung 于 2017-11-13 16:28 编辑
dukewang666 发表于 2017-11-13 15:25
好的 我试试你那个xpath 关键是第一个图片路径格式基本相同 但是其他的都不一样了
还有个问题大神
我的那个 ...

所有的大图和缩略图都有这样的相似点,你为嘛就不肯试试第一种方法呢?简单又快捷,你的xptah没有问题,可以定位到所有小图节点

作者: dukewang666    时间: 2017-11-13 16:45
本帖最后由 dukewang666 于 2017-11-13 16:47 编辑

我就想试试这个连续动作,就是不好用啊。。
既然不好用 那我还是一点点转把 谢谢啦

作者: umsung    时间: 2017-11-13 16:47
dukewang666 发表于 2017-11-13 16:45
我就想试试这个连续动作,就是不好用啊。。

你怎么就没明白我的意思呢?  每一张微略图都对应着一张大图,只要把每张微略图地址后面的-c改成-r就是每张大图的地址,所以只要用样例复制抓取微略图的地址就可以了,然后在批量修改一下就是大图的地址。在excel中很容易就改过来了。

作者: yangwenge    时间: 2017-11-13 16:49
本帖最后由 yangwenge 于 2017-11-13 17:00 编辑

可以修改成这个://*[@class='scroller-container horizontal ']//li/a
重复次数不要修改,设置成1

作者: umsung    时间: 2017-11-13 16:57
本帖最后由 umsung 于 2017-11-13 17:00 编辑

你的连续动作高级设置为嘛要设置成20次,这样肯定会重复20次,把重复次数调为1  ,勾上必做
用这个xpath .//*[@class='scroller-container horizontal ']/div[position()=2]/ul/li/a   

作者: dukewang666    时间: 2017-11-13 17:55
@umsung
好用啦 实在感谢
作者: dukewang666    时间: 2017-11-13 17:56
@yangwenge

可以了  实在感谢




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2