我要采集某个省的废水废气指标数据,需要打验证码,我已经在打码平台上购买了账号,但是在集搜客网络爬虫上运行不正常,是什么问题?
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2020-3-6 12:43

沙发
Fuller 管理员 发表于 2020-3-6 12:23:26 | 只看该作者
只有购买集搜客旗舰版才能使用自动打码
举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2020-3-6 12:24:39 | 只看该作者
Fuller 发表于 2020-3-6 12:23
只有购买集搜客旗舰版才能使用自动打码

我是旗舰版,在DS打数机上配置都是成功的,爬虫软件运行的时候我看到了在打码,就是没有成功采集到数据
举报 使用道具
地板
Fuller 管理员 发表于 2020-3-6 12:25:38 | 只看该作者
发誓学好内容分析 发表于 2020-3-6 12:24
我是旗舰版,在DS打数机上配置都是成功的,爬虫软件运行的时候我看到了在打码,就是没有成功采集到数据
...

请加入qq群,把爬虫的日志文件发给我分析一下。日志文件存在于$HOME/.metaseeker中,名字是metaseeker.log.txt
举报 使用道具
5#
Fuller 管理员 发表于 2020-3-6 12:28:59 | 只看该作者
下面我逐段分析一下日志中的错误信息,讲解一下使用方法



先看这一条,原因是检查验证码图片没有成功,应该是网页没有显示出来验证码。如果出现这个告警,打码就跳过去了
这个告警还提示用户要检查xpath,就是验证码图片的xpath是否写对了,如果没有写对,所有的打验证码操作就会跳过去

举报 使用道具
6#
发誓学好内容分析 金牌会员 发表于 2020-3-6 12:29:45 | 只看该作者
Fuller 发表于 2020-3-6 12:28
下面我逐段分析一下日志中的错误信息,讲解一下使用方法

这一条我确定是对的,xpath验证过
举报 使用道具
7#
Fuller 管理员 发表于 2020-3-6 12:31:48 | 只看该作者
发誓学好内容分析 发表于 2020-3-6 12:29
这一条我确定是对的,xpath验证过

那这个就是说网页上当时没有出现验证码,跳过去也正常。

接着我们看这个日志



服务器连接不正常,要么就是打码平台不太稳定,要么是你的网络不好,比如,经过了vpn
举报 使用道具
8#
Fuller 管理员 发表于 2020-3-6 12:36:24 | 只看该作者


第一条,说明打码平台没有按照约定返回指定位数的验证码,所以,爬虫软件按照约定做了截取。这是有风险的,也说明打码平台运行不太符合接口

第二条表示:设置了校验是否成功的xpath,而且xpath计算出来的是true,所以当成打码失败了

在这里要注意,
1,校验规则可以不用设置
2,如果设置了,打码动作执行以后,就要看验证码图片是否消失了,这个校验规则就是看图片是否消失了
3,也就是说,xpath计算出来的结果是true,表示图片没有消失;如果是false,就是图片消失了。这里不要搞反了


举报 使用道具
9#
Fuller 管理员 发表于 2020-3-6 12:38:30 | 只看该作者


出现这个时候,说明执行输入动作没有效果
按照预期,输入了验证码,并且提交了,输入的内容会消失的,图片也消失了,表示验证通过了。
如果发现页面上的输入框中输入的验证码还没有消失,爬虫以为网页反应太慢,就会等,一直等超时,所以,这条消息会有好多


等到最后,就这个样子了,失败了

举报 使用道具
10#
Fuller 管理员 发表于 2020-3-6 12:40:35 | 只看该作者
关于打码以后是否生效的检验,我们总结一下:
1,如果设置了校验规则,而且xpath执行结果是false,则,成功
2,如果输入框中输入的验证码字符串消失了,说明网页接纳了,就要看校验规则。告警提示是Captcha process may be failed. Do it again
2.1,如果有校验规则,但是校验xpath得出来true, 说明网页接纳了输入的验证码,输入值清空了,但是验证码还有,这种要重打
2.2,如果没有验证规则,要重打 。这个规则有点奇怪,是为了应对一些特殊网页,所以,加上验证规则可能会好
3,如果输入框中的内容没有消失,估计网页还没有接纳,就继续等。告警提示:Captcha process may not have been submitted. Wait longer
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 15:19