如何提取网页数据?MetaSeeker软件工具包提供了按照“规则”提取网页数据的解决方案,这与基于“自适应算法”的自动语义识别方案不同,虽然看起来没有后者高级,但是,MetaSeeker能够有效地解决实际问题而不仅限于实验室研究、提取网页数据的精确度是确定的而不是仅仅给出一个概率估计、网页数据提取速度很高而不是缓慢的数学运算。当然,MetaSeeker拥有的这些优点也是用一些代价换来的,最大的代价是需要操作员协助MetaStudio(MetaSeeker软件工具包中的一个工具)定义提取网页数据的规则,好在MetaStudio强大的图形用户界面和专利算法将操作员从手工编写网页数据提取规则的劳动中解放出来,而且避免手工编写引入错误。本章将详细讲解如何定义网页数据提取规则,然后,将MetaStudio自动生成的提取规则交给网络爬虫工具DataScraper,执行这些规则文件,最终回答如何提取网页数据的问题。
从V3.x版本开始引入的FreeFormat整理箱,使提取网页数据的规则定义操作大大简化,如果被提取的HTML文档本来就有规整的语义结构,例如,采用Microformat标准的页面,定义网页数据提取规则的操作可能只需点击几次鼠标。操作复杂性的降低并没有损害MetaSeeker工具包的能力,相反,网页数据的提取规则的适应性、兼容性和准确性大大提高,这都有赖于专有的FreeFormat技术,因此,MetaStudio (在线版)从V3.x开始只提供FreeFormat整理箱,完全替代了以前版本的ListBucket整理箱。
FreeFormat整理箱是树状结构,树中的每个节点(信息属性)分成两类:
说明:样例复制品是从MetaStudio V2.x版本开始引入的技术,用于提取多实例信息块,例如,在产品列表页面上多个产品信息,需要把两个样例复制品都映射到同一个信息属性上,然后由MetaStudio计算出重复周期参数,这样操作很繁琐,因为在V2.x版本中,要为每个信息属性都映射两次;而且使用ListBucket整理箱只能提取二维表格。MetaStudio 从V3.x开始使用FreeFormat整理箱,改进了样例复制品算法,不必为每个信息属性都重复映射两次,而只需要为多实例容器节点映射两次;同时,FreeFormat整理箱能够提取树状网页数据结构。这些特点在接下来的章节中将会充分展现。