FreeFormat一词广泛出现在GooSeeker发布的各种文章资料中,具体的含义需要根据上下文确定,下面将讲解几个最常出现的表述情景,FreeFormat是GooSeeker的一项专有技术,其背后的理念参见什么是FreeFormat。
MetaSeeker工具箱用整理箱这个概念表述网页信息的语义结构,并作为提取到的语义信息块的容器。在MetaSeeker V2.0及其以前版本,仅实现了ListBucket整理箱类型,用于描述数据表格式的语义结构。显然其描述能力是有限的。从MetaSeeker V3.x版本开始,增加了支持FreeFormat技术的整理箱,简称FreeFormat整理箱(在MetaStudio工作台上建立整理箱时,选择下拉菜单“FreeFormat”建立此类整理箱)。该整理箱中信息属性是用树状结构而不是二维表结构组织的,显然其语义结构表述能力大大提高,而且跟 HTML文档内容的组织格式完全一致。既提高了信息提取规则的适应能力,也提高了信息提取的精度,而且,如《MetaStudio V3.x 用户手册》所示,信息结构的描述过程大大简化,MetaStudio的操作界面更加友好。
FreeFormat技术能够识别和利用HTML文档中任意的标志性元数据,例如,最常用的是HTML元素(element)的class和id特性(attribute),这些标志称为FreeFormat标志,有时也简称为FreeFormat。在此情景下,FreeFormat与Microformat是相对的概念,而FreeFormat克服了MicroFormat的诸多局限,有利于Web内容向结构化和语义化方向发展。
FreeFormat整理箱也是由信息属性组成的,因为FreeFormat整理箱使用树状结构存储内容,就像HTML页面的DOM结构一样,所以,我们有时候将FreeFormat整理箱中的信息属性称为节点。
FreeFormat整理箱中的信息属性从是否拥有FreeFormat标志的角度分成两类:
FreeFormat整理箱中的信息属性从其在整理箱中的位置的角度也分成两类:
MetaStudio V3.x支持的FreeFormat标志有两类class和id,即HTML文档元素的class和id特性。在实际操作MetaStudio过程中,根据目标页面的实际情况可以选择class或者id,或者两者都不采用,具体操作参见《MetaStudio V3.x用户手册》。