信息结构

信息结构也称作Data Schema,标明Web页面内容的语义结构,但是,信息结构并不是简单的数据结构描述,而是为了配合语义结构描述工具MetaStudio生成网页数据抓取规则,记录了网页上各信息片断的位置,并对信息片断的特性进行标注,例如哪些信息代表信息提取线索等等。它是描述Web页面信息结构过程的输出结果,也是网页抓取和Web信息提取/抽取活动的起点。

主题名辅名的组合唯一确定一个信息结构,在MetaCamp服务器上,每个信息结构存成一个信息结构描述文件。用户使用MetaStudio编辑信息结构,依据信息结构产生网页抓取和信息提取/抽取指令文件。

该名词与另一个名词——整理箱密切相关,在很多文章和手册中两者可以互换,但是,存在细微的差别。整理箱可以理解成一个结构化容器,格式化和存储网页抓取结果;而信息结构除了包含整理箱结构的定义以外,还规定网页内容抓取规则以及超链接抓取规则等,而且在一个信息结构中可以有多个整理箱,也就是说可以从同一个网页上抓取多块内容,分别放在不同结构的整理箱中。