语义结构和网页数据抓取规则定义工具MetaStudio

MetaStudio是描述网页语义结构并自动生成网页数据抓取规则的工具。通常,网页数据抓取规则是手工编写的,很容易出错,需要比较麻烦的调试和测试,而且需要使用多个样例网页进行验证,经过多次修正,最终才能获得一个合适的网页数据抓取规则。另外,由于目标网页结构会改变,届时,又得花费很多时间修改原先定义的网页数据抓取规则。MetaStudio将上述所有这些费时且易错的工作自动化,网页数据抓取规则自动生成,并即时进行验证,如果今后页面结构变化了,只需要使用MetaStudio的友好的图形化界面修正一下即可,而且,由于采用了专利技术FreeFormat,锁定目标页面结构变化的能力很强,即使页面结构进行了比较大的改变,MetaStudio生成的网页数据抓取规则也能适应新结构。

MetaStudio V4.x版本进一步提高了网页数据抓取的适应性,在自动生成网页数据抓取规则的基础上,引入了两个层面的手工自定义抓取规则:自定义XPath节点定位表达式和自定义XSLT网页语义块抓取指令,而且将自定义的抓取规则无缝集成到自动生成的网页抓取规则文件中,使用单一网页数据抓取规则文件即可完成特定主题页面的数据抽取任务。

详细的版本特性参见MetaSeeker V4.x版本说明

通过阅读本手册,您可以掌握 MetaStudio 的使用方法,即

  • 描述Web页面语义结构,存储于信息结构描述文件中
  • 自动生成网页数据抓取规则
  • 验证网页数据抓取规则的有效性
  • 对以前定义的信息结构进行维护和修改,以适用变化了的网页结构
  • 维护用户帐户和语义结构数据库

通过MetaSeeker提供的友好的图形用户界面(GUI),定义一个新主题的网页数据抓取规则仅仅需要几分钟时间,接下来的章节将详细展示怎样使用该工具。


其它阅读材料: