集搜客GooSeeker网络爬虫

标题: 无法采集数据 [打印本页]

作者: Thinking2019    时间: 2020-4-20 18:12
标题: 无法采集数据
一级规则名:一汽解放经销商采集
二级规则名:经销商信息采集
采集网址:http://www.fawjiefang.com.cn/fawjiefang/yxfw61/jxscx/index.html#jfcs

数据无法采集,麻烦高手指点。

作者: Fuller    时间: 2020-4-20 18:14
运行规则的时候,有什么现象?
作者: Thinking2019    时间: 2020-4-20 18:19
Fuller 发表于 2020-4-20 18:14
运行规则的时候,有什么现象?

没有特殊现象,正常运行。下面也没报错。
现在发现只能采集到第一条记录,不往下执行

作者: Fuller    时间: 2020-4-20 18:25
第一级选择省份不能用选择类型,因为网页上不是一个select元素,所以,要用两个点击动作当成select动作,先点击选择框右边的三角符号,再点击其中一个选项。
[attach]12317[/attach]

作者: Thinking2019    时间: 2020-4-20 18:33
Fuller 发表于 2020-4-20 18:25
第一级选择省份不能用选择类型,因为网页上不是一个select元素,所以,要用两个点击动作当成select动作,先 ...

改了,还是采集不到数据

作者: Thinking2019    时间: 2020-4-20 18:39
延时从2S改成5S还是不行
作者: Fuller    时间: 2020-4-20 19:38
第二个点击动作的xpath应该是 //*[@class='easysite-select-scroll easysite-y-scroll']/ul/li
作者: Thinking2019    时间: 2020-4-21 11:20
Fuller 发表于 2020-4-20 19:38
第二个点击动作的xpath应该是 //*[@class='easysite-select-scroll easysite-y-scroll']/ul/li

按照您说的,可以了。但是执行到青海省的时候,就一直循环取青海的数据,直到结束。请指点,谢谢

作者: Thinking2019    时间: 2020-4-21 14:15
Thinking2019 发表于 2020-4-21 11:20
按照您说的,可以了。但是执行到青海省的时候,就一直循环取青海的数据,直到结束。请指点,谢谢
...

我发现是因为省份选择下拉列表框正常显示就到青海,如果需要选择接下来的省份就需要先拖动下拉框的滚动条,然后才能选择别的省份。
那应该就是滚动条的问题,请问如何设置

作者: 小蜜蜂测试16    时间: 2020-4-21 14:34
Thinking2019 发表于 2020-4-21 14:15
我发现是因为省份选择下拉列表框正常显示就到青海,如果需要选择接下来的省份就需要先拖动下拉框的滚动条 ...

高级设置里取消模拟点击
作者: Thinking2019    时间: 2020-4-21 14:44
本帖最后由 Thinking2019 于 2020-4-21 15:00 编辑
小蜜蜂测试16 发表于 2020-4-21 14:34
高级设置里取消模拟点击
这个问题解决了,谢谢。但是现在因为每个省份下面有多页数据,需要翻页处理,该如何设置

作者: lan_1985    时间: 2020-4-21 15:13
Thinking2019 发表于 2020-4-21 14:44
这个问题解决了,谢谢。但是现在因为每个省份下面有多页数据,需要翻页处理,该如何设置
...

翻页设置,可以参考这些帖子
https://www.gooseeker.com/doc/thread-698-1-1.html


作者: Thinking2019    时间: 2020-4-21 18:48
lan_1985 发表于 2020-4-21 15:13
翻页设置,可以参考这些帖子
https://www.gooseeker.com/doc/thread-698-1-1.html

设置了连续翻页,但是取到的数据为空。麻烦看下是哪里出了问题,谢谢

作者: Thinking2019    时间: 2020-4-22 09:39
有人吗
作者: wangyong    时间: 2020-4-22 09:56
Thinking2019 发表于 2020-4-21 18:48
设置了连续翻页,但是取到的数据为空。麻烦看下是哪里出了问题,谢谢

提取到的数据为空是规则有问题,

重新映射采集规则,然后把采集内容勾上关键内容

作者: Thinking2019    时间: 2020-4-22 12:30
wangyong 发表于 2020-4-22 09:56
提取到的数据为空是规则有问题,

重新映射采集规则,然后把采集内容勾上关键内容

重新隐射后还是取不到哎,不知道哪里出问题了
请帮忙看下我的规则,谢谢

作者: Thinking2019    时间: 2020-4-22 14:44
wangyong 发表于 2020-4-22 09:56
提取到的数据为空是规则有问题,

重新映射采集规则,然后把采集内容勾上关键内容

设置了下中断,搞定了,谢谢





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2