集搜客GooSeeker网络爬虫

标题: Fuller大神,快来帮我看看这个吧! [打印本页]

作者: Givent    时间: 2016-12-21 14:30
标题: Fuller大神,快来帮我看看这个吧!
样本网址:http://www.56top.cn/queryMoreReturnDriverInfo.jspx

这个网址点击10次就要输入验证码了。
我想要实现。如(点击北京到安徽,采集完所有的数据,在点击北京到江苏,采集完所有数据,就这样一直采集下去)
[attach]3887[/attach]

亲爱的Fuller,能不能帮帮我,搞的头都大了额。

作者: xandy    时间: 2016-12-21 14:48
这个页面如果不做筛选就能够显示全部的话,那么就不需要做点击了,直接做规则把列表里的数据抓完就可以了。
如果一定得做点击,这个点击的动作很多,连续点击的教程可以参看这个:《自动点击京东商品价格条件,智能采集价格数据》。
集搜客有自动打码功能,弹验证码不是问题。《加强网络爬虫装备:连发弹仓、飞掠模式、连续打码功能介绍

作者: Givent    时间: 2016-12-21 17:54
xandy 发表于 2016-12-21 14:48
这个页面如果不做筛选就能够显示全部的话,那么就不需要做点击了,直接做规则把列表里的数据抓完就可以了。 ...

就是这个连续点击好麻烦,能有没有其他办法啊。这样做点击动作也太多了吧!

作者: xandy    时间: 2016-12-21 17:59
Givent 发表于 2016-12-21 17:54
就是这个连续点击好麻烦,能有没有其他办法啊。这样做点击动作也太多了吧!
...

这个页面如果不做筛选就能够显示全部的话,那么就不需要做点击了,直接做规则+翻页把列表里的数据抓完就可以了。

作者: Fuller    时间: 2016-12-21 18:53
这个网站要登录才能看,我测试不了,你可以试试选择了查询条件以后,看到搜索结果以后,看看网页的网址是什么。如果网址中含有搜索条件,那么就可以直接构造网址
作者: Givent    时间: 2016-12-24 11:00
Fuller 发表于 2016-12-21 18:53
这个网站要登录才能看,我测试不了,你可以试试选择了查询条件以后,看到搜索结果以后,看看网页的网址是什 ...

点击搜索后网址是这样的:http://www.56top.cn/queryMoreReturnDriverInfo.jspx。可以构造么

作者: Fuller    时间: 2016-12-24 11:09
Givent 发表于 2016-12-24 11:00
点击搜索后网址是这样的:http://www.56top.cn/queryMoreReturnDriverInfo.jspx。可以构造么
...

构造不了,只能连续动作一层层点进去

作者: Givent    时间: 2016-12-24 11:16
提示: 该帖被管理员或版主屏蔽
作者: Fuller    时间: 2016-12-24 16:37
Givent 发表于 2016-12-24 11:16
**** 该帖被屏蔽 ****

主题名是什么?

你发的含有账号和密码的帖子采取了屏蔽措施

作者: Fuller    时间: 2016-12-24 16:42
你是要从这个列表点进去采集详细信息吗?[attach]4017[/attach]

这个列表的每条信息没有@href,要做连续点击动作,而且还需要飞掠模式,因为点击以后会弹出一个新窗口。飞掠模式是旗舰版的功能。

作者: Fuller    时间: 2016-12-24 16:47
找到一个窍门

[attach]4018[/attach]

抓这个onclick信息,里面还有了详情页的关键信息,用这个信息可以构造出来下级网址,就不用飞掠模式了

作者: Givent    时间: 2016-12-25 10:47
Fuller 发表于 2016-12-24 16:47
找到一个窍门

我做的主题名:快到网1  快到网2  还是抓取不了

作者: wangyong    时间: 2016-12-27 14:40
本帖最后由 wangyong 于 2016-12-27 14:41 编辑

不用飞掠模式就需要根据@onclick将下级链接拼出来勾选下级线索,需要自定义xpath
xpath表达式:
  1. concat('http://www.56top.cn/openDriverDetailed.jspx?id=',substring-before(substring-after(./@onclick,"('"),"')"))
复制代码

[attach]4101[/attach]
选中抓取内容勾选抓高级设置

作者: wangyong    时间: 2016-12-27 14:44
[attach]4102[/attach]
下级目标主题名要填快到网2



作者: wangyong    时间: 2016-12-27 14:45
[attach]4103[/attach]
翻页要用相对翻页《相对翻页






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2