网站设置验证码作为反扒手段,怎么应付?

在抓取英文阿里的时候,没抓几分钟就在scraper的线程窗口中出现需要验证码,但是由于线索跳转的很快(类似于timeout很快,直接跳到下一个线索抓),指导剩余线索为0。中间跳转的时候都来不及手动的填写验证码,就直接报错了。具体日志窗口显示错误如下"suitable data schema cannot be found for clueid 48615823 in 0st nthread cycle"。先配置文件中,timeout时间设置比较长似乎也没什么用,不知道有什么解决方法。求指教啊~

阿里巴巴抓取经验

阿里巴巴的抓取比较麻烦,尤其是搜索公司并抓取时,必须采用模拟点击方式,目前针对阿里巴巴的模拟点击抓取功能还没有放到在线版供大家免费使用,因为还有一些技术问题没有彻底解决。

如果想手工输入验证码,那么MetaStudio定义抓取规则的时候,要选择延长模式,就会一直等到超时,如果没有选择延长模式,那么不会等到超时,只要网页完全加载上了就结束了。

多谢指教!我们当时

多谢指教!我们当时也是这么想的,但是考虑到抓取的速度较慢,所以没弄~