整理箱

就像我们在日常生活中使用整理箱一样,例如,在衣物整理箱中,第一格放置内衣;第二格放置上衣;第三格放置裤子等等。在此,整理箱是对目标页面上的信息的归类存储,形象地说整理箱中有很多格子,用于存储信息属性,一个整理箱存储了具有特定语义关系的一组信息属性。用户还可以为同一个目标页面定义多个整理箱,例如,在博客页面上,有个区域是关于博主的个人信息,另一个区域是博主发表的博文的列表,如果在一次信息提取任务中同时提取这两类信息,用户需要定义两个整理箱:在第一个整理箱中定义多个信息属性,全部用来存储博主的各种个人信息资料,例如,网名、性别、email地址等;在第二个整理箱中存储关于一篇博文的多个信息属性,例如,标题、写作日期、内容提要、评论数量和链接等。

与整理箱对应的一个名词是信息结构,两者在很多文章和手册中可以互换,一般情况下,在讲述怎样描述网页内容的语义结构时,经常使用“信息结构”这个词;在讲述将网页内容进行结构化转换并存储成结构化的XML文件时,经常使用“整理箱”这个词。但是,两者本质上是有区别的:整理箱可以理解成一个结构化容器,格式化和存储网页抓取结果;而信息结构除了包含整理箱结构的定义以外,还规定网页内容抓取规则以及超链接抓取规则等,而且在一个信息结构中可以有多个整理箱,也就是说可以从同一个网页上抓取多块内容,分别放在不同结构的整理箱中。