本节所述的网页数据提取规则和下一节所述的网页超链接提取规则相对应,是网页内容提取软件的两项核心任务,前者专注于网页上的数据提取,网页抓取/网络爬虫软件工具包MetaSeeker将网页数据提取下来后存储成有格式的XML文件,语义元数据用XML标签标识;MetaSeeker同时也是一个定题网络爬虫工具,所谓网络爬虫,能够在用网页超链接编制的万维网(Web)上连续向广度和深度方向爬行,所以,需要提取网页中的超链接,作为爬行的线索,网页超链接提取规则的定义方法在下一节讲述,下面将详细讲述网页数据提取规则的定义方法。
网页数据提取规则是一组指令(XSLT脚本程序),指导DataScraper从目标网页的确定位置提取数据,并且按照信息结构的规定,将网页数据提取结果存储成有特定语义结构的XML文件。简而言之,从目标网页的什么位置提取数据并且怎样转换成XML文件是由规则文件规定的。
网页数据提取规则文件由MetaStudio自动生成,有效避免人为编程引入错误,但是,用户需要通过网页数据提取规则定义工具MetaStudio的图形用户界面(GUI)指导数据提取规则的生成,主要是在Bucket Editor工作台上操作,分解成如下步骤:
完成以上操作后,MetaStudio自动生成网页数据提取规则指令文件(MAP和GEM文件)。