样本页面

如果需要抓取网站内容抽取网页数据,需要为目标网页定义信息提取规则,在很多网站上,大量的页面使用相同的HTML模板,例如,论坛网站上的所有的讨论主题都使用一个网页模板写成。在这种情况下,只需要为其中一个网页定义信息提取规则即可,这个网页就是样本页面。

网页抓取/数据抽取/信息提取软件工具包MetaSeeker中的MetaStudio工具首先将样本页面加载到其内嵌的浏览器窗口中,然后用户在多个MetaStudio的工作台上为该页面定义信息结构,用于由系统自动生成信息提取规则,同时还需要定义线索提取规则,信息结构保存于MetaCamp服务器上,以后,该用户或者其他用户可以使用MetaStudio再次加载此信息结构,同时将此样本页面也加载到MetaStudio的内嵌的浏览器窗口中,用户可以对先前定义的信息结构进行修改编辑。