有众多同义词表示这个含义,例如,网站内容抓取,页面抓取,数据抽取,信息提取等,都表示从某个网站页面上将需要的内容抽取出来,一般来说有两种做法:1,将Web页面的所有文本都存下来;2,只抽取出指定的内容,例如,页面上所有商品的价格。所以,后者使用抽取更贴切。网页抓取/数据抽取/信息提取软件工具包MetaSeeker更侧重与后者,当然抽取整个页面上的文本是抽取操作的一种特例,肯定也是支持的。MetaSeeker抽取网站内容的特色之一是准确性,下面简单说明是怎样实现的。
首先使用MetaStudio描述Web页面信息结构生成信息提取指令文件和工作流指令文件,在这些文件的指导下,DataScraper将Web页面上的数据和线索抽取下来,提取到的数据转换成结构化结果,存储成XML文件。提取到的线索存储到DataStore服务器上,以后的信息提取可以从这些线索入口。一旦无结构的Web页面信息转换成有结构的XML文件,进一步的计算机信息处理就有了用武之地,所以Web页面信息提取或叫数据抽取是计算机信息处理的前提