集搜客GooSeeker网络爬虫

标题: 谈谈为什么淘宝要屏蔽百度蜘蛛的抓取 [打印本页]

作者: xandy 时间: 2015-12-18 18:16
标题: 谈谈为什么淘宝要屏蔽百度蜘蛛的抓取
如题。

作者: Fuller 时间: 2015-12-18 19:23
很久很久以前，我整理过一篇文章：Dark Web ---- 万维网正在变暗？。熟悉网络爬虫的朋友可能知道，Google，百度等通用网络爬虫都要遵守一个robots规则，网站让你爬的你才能爬，虽然这是一个非强制要求，但是通常大家都友好坚守原则。除了为了保护一些信息以外，其实主要是为了防止网络爬虫迷路。所以，整个web的绝大多数都是暗的。

也是很久以前，百度推出了阿拉丁计划，其中一个口号是发掘暗网。也说明掩盖在黑暗中的有价值信息很多很多。

因为很多信息的价值太高，为了防止爬虫过度地访问网站造成处理压力，光靠robots不够，需要对频繁访问做屏蔽。通常会根据蜘蛛所用的IP地址作为一个判断依据。GooSeeker采用分布式方式，可以大大降低被封锁的可能，即便被封锁，可以很容易换IP或者换地方

作者: xandy 时间: 2015-12-21 14:17

Fuller 发表于 2015-12-18 19:23
很久很久以前，我整理过一篇文章：Dark Web ---- 万维网正在变暗？。熟悉网络爬虫的朋友可能知道，Google ...

防止爬虫迷路该如何理解呢。

作者: Fuller 时间: 2015-12-21 15:27

xandy 发表于 2015-12-21 14:17
防止爬虫迷路该如何理解呢。

目前除了做一个公司门面网站要定制开发以外，通常都会用一个CMS系统管理网页内容，比如，Discuz，Drupal，WordPress等。这样的CMS本身是一套复杂软件系统，用户输入的URL地址中会有很长的参数，可能代表从哪里跳转过来的、当时的上下文场景等等，相同一个网页内容会有多个网址指向它，可能只是参数有些细微差别。
在这样的环境下，超链接串在一起很容易形成一个死循环，就把网络爬虫陷里面了。就需要在robots.txt中规定哪些参数的网址不要访问。

欢迎光临集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)