定义网页数据提取规则

本节所述的网页数据提取规则和下一节所述的网页超链接提取规则相对应,是网页内容提取软件的两项核心任务,前者专注于网页上的数据提取,网页抓取/网络爬虫软件工具包MetaSeeker将网页数据提取下来后存储成有格式的XML文件,语义元数据用XML标签标识;MetaSeeker同时也是一个定题网络爬虫工具,所谓网络爬虫,能够在用网页超链接编制的万维网(Web)上连续向广度和深度方向爬行,所以,需要提取网页中的超链接,作为爬行的线索,网页超链接提取规则的定义方法在下一节讲述,下面将详细讲述网页数据提取规则的定义方法。

网页数据提取规则是一组指令(XSLT脚本程序),指导DataScraper从目标网页的确定位置提取数据,并且按照信息结构的规定,将网页数据提取结果存储成有特定语义结构的XML文件。简而言之,从目标网页的什么位置提取数据并且怎样转换成XML文件是由规则文件规定的。

网页数据提取规则文件由MetaStudio自动生成,有效避免人为编程引入错误,但是,用户需要通过网页数据提取规则定义工具MetaStudio的图形用户界面(GUI)指导数据提取规则的生成,主要是在Bucket Editor工作台上操作,分解成如下步骤:

  • 描述样本页面的语义结构,就像定义关系数据库的表结构一样,定义网页数据的信息结构,实际上也就是定义了一个存储提取到的网页数据的容器,称为结构化整理箱
  • 指定网页数据映射关系,即从网页上的什么位置上提取数据,提取结果存贮在整理箱的哪个信息属性(类似数据库表的字段)中
  • 规定信息属性的特性,即描述被提取的数据具有什么特点,能够进一步提高信息提取规则的有效性
  • 设定页面信息结构识别规则,即指定一些标志,只有具有这些标志的页面才能套用某个信息结构和提取规则。

完成以上操作后,MetaStudio自动生成网页数据提取规则指令文件(MAP和GEM文件)