评论 13807308232 2020-7-4 17:55
图片验证码识别平台:http://cnvote.net/coun/yzm/reg.asp,识别所有英文数字类型的验证码30元/万图
量大的话可以定制本地无限制识别,也可以定制自动打码和输入工具。
评论 SGCCtopic 2017-7-27 05:24
gz51837844: 规则1和规则2分别抓取正常页面和需要打码的页面,检查是否两个规则抓取了对应的页面 另外建议使用云速打码,更精确 ...
另外,发现确实云速打码比联众打码更快更准
评论 SGCCtopic 2017-7-27 05:19
gz51837844: 规则1和规则2分别抓取正常页面和需要打码的页面,检查是否两个规则抓取了对应的页面 另外建议使用云速打码,更精确 ...
试了好久,发现不用做两条规则,只要在数据抓取的那个规则里加上连续动作里的打码动作就可以了,只要记得把高级设置里的尝试次数多调几次,打码可能两三次才能成功
评论 SGCCtopic 2017-7-27 04:27
gz51837844: 规则1和规则2分别抓取正常页面和需要打码的页面,检查是否两个规则抓取了对应的页面 另外建议使用云速打码,更精确 ...
两个规则对应着两个页面没问题。我尝试了几次,感觉问题是在于两个规则适用于两个页面的判定程序。当两个线索存在差异可以通过做两个规则来解决。但是,微博抓取过程是一个翻页过程,是一个线索在翻页而已。当一个线索被判定为使用正常抓取数据规则的时候,就不会再在翻页出现验证码页的时候判断是否要切换规则,而是会判断为规则不适用而结束抓取。同样当我已经被要求输入验证码时候,使用打码的那个规则开始爬数据,就会出现打码成功后成功进入正常的数据抓取页,这时候,爬虫却选择了结束这条线索,因为爬虫选择了用打码的规则来处理这条线索,之前的规则不适用,自然就结束了。所以,这种微博翻页过程中出现的验证码页面该怎么办? ...
评论 gz51837844 2017-7-26 17:47
SGCCtopic: 如果是微博翻页抓取过程中出现验证码怎么办?我连的联众打码,我在一个主题下做了两个规则,一个是抓取微博列表内容的,一个是打码的,分别设置了关键内容,但是 ...
规则1和规则2分别抓取正常页面和需要打码的页面,检查是否两个规则抓取了对应的页面
另外建议使用云速打码,更精确
评论 SGCCtopic 2017-7-26 16:21
如果是微博翻页抓取过程中出现验证码怎么办?我连的联众打码,我在一个主题下做了两个规则,一个是抓取微博列表内容的,一个是打码的,分别设置了关键内容,但是,如果在抓取了几页之后出现要求输入验证码页的时候,爬虫就自动判定这条线索抓取结束。如果是在要求输入验证码页开始让爬虫自动打码,如果打码成功,同样不会继续往下翻页抓取,同意意味着抓取结束。
评论 Fuller 2016-12-2 09:18
中秋2016: 示例的情况是: 打码之后, 进入一个新的页面进行抓取 如果是翻页采集过程中出现验证码, 那么定义打码动作对应的主题名应该填写什么?, ...
应该主题名不变
评论 中秋2016 2016-12-2 08:48
示例的情况是: 打码之后, 进入一个新的页面进行抓取
如果是翻页采集过程中出现验证码, 那么定义打码动作对应的主题名应该填写什么?,

GMT+8, 2024-3-29 22:59