模拟真人行为的反爬虫的一些研究

2016-9-18 21:56| 发布者: Fuller| 查看: 5097| 评论: 0

摘要: 最近沉浸在反爬研究,先用百度拓词工具搜集了所有关于反爬的内容,最后归纳一下其实反爬策略也不多。反正每种反爬策略都是抬高了爬虫运行成本,直到高到让爬数据的感觉不划算。那么在爬虫开发者方面,就要想办法怎样 ...


最近沉浸在反爬研究,先用百度拓词工具搜集了所有关于反爬的内容,最后归纳一下其实反爬策略也不多。反正每种反爬策略都是抬高了爬虫运行成本,直到高到让爬数据的感觉不划算。那么在爬虫开发者方面,就要想办法怎样进一步提高效率降低运行成本。

具体那些常见的反爬就不说了(可以看《反爬虫应对方法》),我只说说最近在做的事情应对反爬。

最近主要研究网站的机器人识别程序,有些网站使用了很复杂的机器人识别程序。我先做了一个专门的行为录制程序(在MS谋数台的开发者工具菜单栏中),用来录制大量的真人浏览网页的行为和浏览器事件,并且进行标注,然后,从这些数据中抽取特征,用一些算法,包括有监督的机器学习,建立行为模型。本来想用来破解滑动验证码,不过滑动验证码太弱了,需要找一个更加复杂的网站检验这个模型

鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-4-16 16:09