加载数据抽取样本页面

样本页面的结构代表了同一主题下的所有页面结构,所以,为样本页面定义的数据抽取规则可以普遍用于所有同一主题的页面数据抽取任务。当前互联网处于Web2.0时代,典型的网站都是以数据库为后盾,而HTML页面是以特定模板动态生成的,样本页面结构反映了网页模板结构,因此,为样本页面定义的数据抽取规则并推广应用于同一主题的所有页面的思路是可行的。当然,当前仍然有大量的手工编写的静态HTML网页,一般没有确定的网页模板,从这类网页上抽取数据要麻烦得多。

什么是数据抽取?不同领域有不同的解释:

  • 在综合搜索领域,例如,Google,百度,Yahoo等搜索引擎,数据抽取主要是抽取网页上的所有文字内容,为其建立索引,所以,没有确定的网页模板并不是问题;
  • 在垂直搜索、商业情报采集、商业智能实现等等领域,数据抽取是为了从网页上仅仅抽取出需要的数据,一般是结构化的数据,页面上其它大量的文字都是不要的,而且,在数据挖掘领域,精确的数据抽取十分关键,在这个领域,网页模板是否存在将是个大问题。

好在现在是Web2.0时代,数据抽取软件工具包MetaSeeker大有用武之地,该软件包的数据抽取规则定义软件工具MetaStudio的首要任务是帮助用户快速地生成数据抽取规则,是在样本页面上进行的,也就是说,定义信息结构和生成数据抽取规则的起点是加载样本页面。

MetaStudio界面中有一个内嵌的Web浏览器窗口,将样本页面加载其中的方法很简单,选择Firefox浏览器的工具->MetaStudio菜单项,启动MetaStudio。在MetaStudio工具条的地址输入框中输入目标页面的URL,回车即开始页面加载。

加载成功后,在状态条上显示"完成"状态提示,在DOM树视窗中将显示折叠的DOM节点树,并且自动在Theme Editor工作台上的页面地址输入框中显示当前的页面的URL地址。



操练

加载http://www.alibaba.com/companies/136/Plant_Animal_Oil.html