集搜客GooSeeker网络爬虫

标题: 京东列表不能翻页采集 [打印本页]

作者: lyphen    时间: 2019-2-23 11:06
标题: 京东列表不能翻页采集
规则名: 泡沫洗手液京东
已经按教程做好翻页设置了, 但是可能因为不能加载滚屏的原因不能翻页采集数据。
也把速度改成2,滚屏总数改成了20,但是仍然不能翻页采集京东列表数据。快速采集也是遇到同样的事情。
看教学视频采集京东数据压根就没有这种事情发生,是不是最近京东做了反爬措施,请技术人员研究下。谢谢



作者: maomao    时间: 2019-2-23 11:23
我加载了你的规则,我发现翻页区和翻页记号加载不成功,应该是规则没有做好。
你用哪个节点作为翻页区和翻页记号的?

[attach]10594[/attach]
翻页区三个箭头指向的任何一个都可以,如果选择后两个,点击定位按钮,选择偏好class,因为后两个节点含有class属性,就近使用class定位标志。
翻页记号用红框里面的文本

作者: lyphen    时间: 2019-2-23 11:27
翻页区我好想设置的是EM,翻页记号是EM里的TEXT
作者: maomao    时间: 2019-2-23 11:30
lyphen 发表于 2019-2-23 11:27
翻页区我好想设置的是EM,翻页记号是EM里的TEXT

那就点击“定位偏好”按钮,修改定位偏好成“偏好class”,再点击“查看规则”按钮,观察生成的xpath,里面最好不要含有positon()=xx函数,这种是绝对定位,很容易失效
作者: lyphen    时间: 2019-2-23 11:39
任然是不行

作者: lyphen    时间: 2019-2-23 11:47
我没有设置XPATH的,奇怪的用其它网上关于京东的资源也一样不能翻页。
作者: maomao    时间: 2019-2-23 12:11
现在应该可以了,我刚加载你的规则看了,可以翻页采集了
作者: lyphen    时间: 2019-2-25 17:44
maomao 发表于 2019-2-23 12:11
现在应该可以了,我刚加载你的规则看了,可以翻页采集了

我这里测试还是不行哦,那规则没有问题, 是不是我的设置有什么问题,还是浏览器的原因?从浏览器上来看,好像是不能加载滚动页面。

作者: lyphen    时间: 2019-2-27 09:57
maomao 发表于 2019-2-23 12:11
现在应该可以了,我刚加载你的规则看了,可以翻页采集了

查到是什么问题了吗?

作者: wangyong    时间: 2019-2-27 10:25
本帖最后由 wangyong 于 2019-2-27 10:38 编辑
lyphen 发表于 2019-2-27 09:57
查到是什么问题了吗?

现在用的定位方式是绝对定位,每次打开网页时节点位置会发生变化,需要将规则定位方式调整成偏好@class
要做以下两点修改,
1,整理箱定位改成偏好@class
[attach]10603[/attach]
2,选择@class='p-price'的div对价格做定位标志映射
[attach]10604[/attach]
作者: lyphen    时间: 2019-2-27 14:05
wangyong 发表于 2019-2-27 10:25
现在用的定位方式是绝对定位,每次打开网页时节点位置会发生变化,需要将规则定位方式调整成偏好@class
要 ...

我照你的方法改了,但是还是解决不了翻页的问题。是不是浏览器不能正常加载滑屏的问题?


作者: lyphen    时间: 2019-2-27 14:07


作者: maomao    时间: 2019-2-27 14:27
本帖最后由 maomao 于 2019-2-27 14:28 编辑
lyphen 发表于 2019-2-27 14:07

看到你前面说快捷采集也不行,你试试快捷采集,注意选择页数[attach]10605[/attach]




作者: lyphen    时间: 2019-2-28 09:34
maomao 发表于 2019-2-27 14:27
看到你前面说快捷采集也不行,你试试快捷采集,注意选择页数

快速采集也是同样的问题, 所以我就不知道是哪里出问题了

作者: Fuller    时间: 2019-2-28 09:46
lyphen 发表于 2019-2-28 09:34
快速采集也是同样的问题, 所以我就不知道是哪里出问题了

你采集的网址是哪个?发出来我试试





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2