用户使用浏览器浏览一个Web页面时,用户接触到的是各种各样的可视化的数据,这些数据反映的语义要靠用户自己理解,这些数据在呈现给用户时,会使用特定的排版设计,体现特定的结构,帮助用户理解语义;反过来,当用户理解了语义后,就会觉得这些数据是一些结构化的信息。可见理解Web页面内容和信息结构是一个智能的思维活动。
然而,计算机没有思维能力,运用当前的技术,计算机无法准确识别和理解Web页面数据体现的信息和知识,这样就阻碍了对信息的进一步处理。为了填补信息结构识别这条鸿沟,我们不必等待先进识别技术的出现,我们人类可以帮助计算机识别信息结构,一旦完成了这项智能化的工作,计算机就能够发挥精确、快速、海量的信息处理。
描述Web页面信息结构是用户使用MetaStudio工具的主要行为。MetaStudio工具给用户提供了一些便利的手段,指导计算机识别信息结构,并采用一个算法,将信息结构的描述用XML文件记录下来,利用这些信息计算机可以对Web页面数据进行结构化转换,从而打通了进一步信息处理和挖掘的道路,将无语义结构的Web页面内容转换成有语义结构的信息是进行其他信息处理的前提。MetaSeeker工具包首要任务就是保证上述前提条件的成立。
与其它信息提取(网页抓取/抽取)工具不同,MetaSeeker提取Web信息的起点是描述Web页面信息结构,这也造就了MetaSeeker免编程生成各种HTML包装器(HTML Wrapper)的能力,这是应用于企业竞争情报领域的必要条件,因为每个企业关心的竞争信息各不相同,而且是动态变化的。