|
很久很久以前,我整理过一篇文章:Dark Web ---- 万维网正在变暗? 。熟悉网络爬虫的朋友可能知道,Google,百度等通用网络爬虫都要遵守一个robots规则,网站让你爬的你才能爬,虽然这是一个非强制要求,但是通常大家都友好坚守原则。除了为了保护一些信息以外,其实主要是为了防止网络爬虫迷路。所以,整个web的绝大多数都是暗的。
也是很久以前,百度推出了阿拉丁计划,其中一个口号是发掘暗网。也说明掩盖在黑暗中的有价值信息很多很多。
因为很多信息的价值太高,为了防止爬虫过度地访问网站造成处理压力,光靠robots不够,需要对频繁访问做屏蔽。通常会根据蜘蛛所用的IP地址作为一个判断依据。GooSeeker采用分布式方式,可以大大降低被封锁的可能,即便被封锁,可以很容易换IP或者换地方
|
|
共 3 个关于本帖的回复 最后回复于 2015-12-21 15:27