FreeFormat

FreeFormat一词广泛出现在GooSeeker发布的各种文章资料中,具体的含义需要根据上下文确定,下面将讲解几个最常出现的表述情景,FreeFormat是GooSeeker的一项专有技术,其背后的理念参见什么是FreeFormat



FreeFormat整理箱

MetaSeeker工具箱整理箱这个概念表述网页信息的语义结构,并作为提取到的语义信息块的容器。在MetaSeeker V2.0及其以前版本,仅实现了ListBucket整理箱类型,用于描述数据表格式的语义结构。显然其描述能力是有限的。从MetaSeeker V3.x版本开始,增加了支持FreeFormat技术的整理箱,简称FreeFormat整理箱(在MetaStudio工作台上建立整理箱时,选择下拉菜单“FreeFormat”建立此类整理箱)。该整理箱中信息属性是用树状结构而不是二维表结构组织的,显然其语义结构表述能力大大提高,而且跟 HTML文档内容的组织格式完全一致。既提高了信息提取规则的适应能力,也提高了信息提取的精度,而且,如《MetaStudio V3.x 用户手册》所示,信息结构的描述过程大大简化,MetaStudio的操作界面更加友好。



FreeFormat标志

FreeFormat技术能够识别和利用HTML文档中任意的标志性元数据,例如,最常用的是HTML元素(element)的class和id特性(attribute),这些标志称为FreeFormat标志,有时也简称为FreeFormat。在此情景下,FreeFormat与Microformat是相对的概念,而FreeFormat克服了MicroFormat的诸多局限,有利于Web内容向结构化和语义化方向发展。



FreeFormat信息属性

FreeFormat整理箱也是由信息属性组成的,因为FreeFormat整理箱使用树状结构存储内容,就像HTML页面的DOM结构一样,所以,我们有时候将FreeFormat整理箱中的信息属性称为节点。

FreeFormat整理箱中的信息属性从是否拥有FreeFormat标志的角度分成两类:

  • 没有FreeFormat标志:这类节点同ListBucket整理箱中的一样,在HTML文档中没有特定的FreeFormat标志,在定义信息提取规则时需要指定信息提取影射关系;
  • 拥有FreeFormat标志:我们有时将其简称为FreeFormat节点,为这类节点提取信息可以利用FreeFormat标志,大大提高了信息提取规则的适应能力和信息提取的精度。

FreeFormat整理箱中的信息属性从其在整理箱中的位置的角度也分成两类:

  • 容器节点:用于整理语义结构,包容一个或多个子节点,嵌套层数不限,最顶层的容器节点就是整理箱本身。
  • 叶子节点:没有子节点,对应被提取的信息。



FreeFormat标志的类型

MetaStudio V3.x支持的FreeFormat标志有两类class和id,即HTML文档元素的class和id特性。在实际操作MetaStudio过程中,根据目标页面的实际情况可以选择class或者id,或者两者都不采用,具体操作参见《MetaStudio V3.x用户手册》