同V2.0相比,本版本增加了对FreeFormat技术的支持,增加了FreeFormat类型整理箱,其语义结构描述能力和信息提取能力完全覆盖了V2.0的ListBucket类型整理箱,因此,虽然下面的章节分别讲解了两类整理箱的使用方法,原则上,应该尽量选用FreeFormat整理箱,而ListBucket整理箱只用于维护使用上一个版本制作的信息结构和信息提取规则。
在每一节最后都有一个实际操练的说明,读者可以根据说明实际操作一下。目标是从阿里巴巴上提取公司信息。
技巧:本章所述的操作用于描述一个新的信息结构,如果在MetaCamp服务器上已经有了别人共享的信息结构,可以在Schema List工作台上执行加载操作,将其加载到工作台上并按照自己的需要进行修改,以产生自己需要的信息提取指令文件。如果采用这种方法,可以跳过选定和加载目标页面一节。怎样加载信息结构参见辅助操作#信息结构列表一节。