主题

用户使用MetaStudio工具描述Web页面信息结构时,不是为每一个目标页面都描述一次,而是给一组具有相同语义结构的页面描述一次即可,描述的结果就是信息结构(Schema),我们给每个Schema起一个主题名(Theme Name),用以代表特定的语义。

在理想情况下,使用一个Schema就能够涵盖所有的同类HTML页面,然而,实际上属于同一类的页面往往结构有少许变化,例如,在表结构的信息块中,某些字段在这个页面上有却在另一个页面上没有。MetaStudio给每个信息属性赋予了很多灵活的特性,如果这些灵活性不足于应对前述的页面变化,用户可以再描述一个Schema,其主题名与前者相同,而使用不同的辅名(Middle Name)区分。DataScraper提取页面信息时将自动选择一个适合的Schema。

概而言之,主题代表一类有相同语义的Web页面,每个主题下有多个信息结构(Schema),使用不同的主题名和辅名的组合识别信息结构。