Dark Web ---- 万维网正在变暗?

Dark Web,有多种称谓:deep Web, Deepnet, invisible Web, hidden Web,相对于surface Web,一般是指搜索引擎无法索引的万维网内容。网络上有个热帖Is the Web still the Web?代表了部分人对万维网发展方向的忧虑。下面将讨论什么使万维网变暗了,是否有方法将暗信息提取出来。



什么是Dark Web

维基百科上有个词条Deep Web,说明了哪些信息是暗藏在万维网中的。

  • 动态内容(Dynamic content),是指发起一个查询请求或者提交一个HTML表单(form),在响应消息中返回的内容,有些情况下,需要在编辑框中输入领域相关的信息,搜索引擎更难处理。
  • 孤立内容(Unlinked content),指一些页面没有被任何页面链接,即没有链入页面(inlink或者backlink),这样网络爬虫程序无法发现它们。
  • 私有内容(Private Web),指一些网站需要登录才能访问,即用登录口令保护的内容。
  • 情景耦合内容(Contextual Web),指一些内容能否被访问跟实际情景相关,例如,只允许特定地址的客户端访问,只能按照某种浏览顺序访问等。
  • 访问受限内容(Limited access content),采用一些防止访问的技术手段隐藏的内容,例如,在robots.txt文件中设定的访问规则,使用CAPTCHA(验证码)或者HTTP头中声明pragma:no-cache/cache-control:no-cache等。
  • 脚本化内容(Scripted content),例如通过Javascript程序计算出链接的实际地址指向的内容或者通过AJAX或Flash程序动态从服务器上下载的内容。
  • 非HTML/非文本内容(Non-HTML/text content),将文字内容编码到图像、视频或者特定格式的文件中,普通的搜索引擎无法访问。


万维网在变暗吗

Is the Web still the Web?作者所担心的并不是杞人忧天,现状确实是更多的网站越来越像孤立的应用系统,本来就没有打算与别的网站共享信息。但是从另一方面讲,万维网(Web)和互联网(internet)本来就是两码事,万维网是后来者,是Tim Berners-Lee定义的使用超文本联系起来的信息存储、检索和共享系统。万维网可以看作是互联网上的一个应用系统,这样就没有理由排斥别的应用系统与其共存。如果这些并存的应用系统中的信息需要共享,需要采用特定的技术方法。



发掘暗信息

例如,Flash中的内容难于被普通网络爬虫提取,但是只要将网络爬虫针对Flash内容格式进行适配,问题即可解决,当前主要的几个搜索引擎都已经能够提取Flash中的内容。

当前很多界面优美的网站采用了AJAX技术,网站变成了一个胖客户端(Rich Client)应用系统,浏览器加载的HTML页面基本上是个空壳,绝大多数内容需要Javascript脚本动态产生,普通的网络爬虫几乎提取不到有价值的信息,而MetaSeeker工具包借助Mozilla浏览器平台技术,能够有效地提取脚本管理的内容。Will Google Use Chrome to Index Password Protected Web?一文好像给人一个信号:巨头也在这样做。

Comments

瞄准“暗网”信息 百度披露新搜索平台

根据和讯消息和搜狐消息,百度正致力于Dark Web的搜索,据称其产品名是“阿拉丁”

关于“阿拉丁”的评论

《“阿拉丁计划”到底是什么?》一文作者首先引用了专家对暗网的定义,然后下了一个结论:“阿拉丁计划”不过是拿搜索圈子里一个古老的话题炒剩饭。引经据典得来的结论似乎像真理,其真实的一面是作者根本不清楚什么是暗网,也没有一种科学发展观,更不清楚行业技术发展的规律。我们眼前趋之若骛的新产品往往是10年前或者50年前的学术研究焦点,这种例子比比皆是,学术研究和产业应用是不能划等号的。

Google发掘Deep Web中的信息的尝试

在Google的官方博客上有篇文章Crawling through HTML forms,介绍了Google爬虫在发掘deep web中的信息的尝试。它的做法是:

在一些高质量的网站(high-quality site,什么样的网站属于这种)如果遇到HTML FORM元素,将尝试进行一些自动提交。对于text box,将从包含这个表单的页面内容中选择一些词汇输入到编辑框。

虽然不知道用什么算法能够正确选择符合输入要求的词汇,但是可以看到通用搜索引擎对deep web的重视。

Google正在尝试分析HTML Form结构

最近读了Communication of the ACM, Oct 2008, Vol.51, No.10上的一篇文章Searching the Deep Web,文中叙述了Google发掘语义结构的一种方法:网络上很多信息查询服务,提交HTML表单(Form)就可查询到信息,例如,通过输入书名和摘要中的关键字查询书籍的服务,一般来说表单的结构直接反应了后台数据库的语义结构,因此,提取出这些结构信息并使用RDF描述出来,构成了一个元数据层,这个过程可以自动完成。

一篇综述性文章

浏览了一下Penetrating the Deep Web,好像在哪读过,也可能内容相似的文章太多了,我感觉大家讨论Deep Web时更关注怎样实现一种更智能的提交typed queries的方法以探求背后的数据库的内容。在这种思想左右下,MetaSeeker V3.x版本计划中列入了相关的内容,在计划落实时,此类任务都被取消掉了,新近推出的MetaSeeker V3.1.0更侧重于surface Web中的语义结构的定义,也就是提供一个有效的工具协助搜索引擎向语义搜索方向发展。