定义网页信息提取规则从哪入手

免费下载的信息结构定义和网页信息提取规则生成软件工具MetaStudio功能强大、适用范围广,但是面对复杂的图形用户界面,对于新用户,从哪入手是常问的问题。用户使用MetaStudio的目的是生成网页信息提取规则,以便操作网页信息提取工具DataScraper周期性地连续地从网站上提取信息。

MetaStudio根据信息结构生成网页信息提取规则,信息结构描述了网页内容的语义结构以及从网页的什么位置提取信息,表示将网页上的什么信息映射到信息结构字段(称为信息属性)上,同时,为了提高网页信息提取的准确性,使用了很多信息结构修饰描述手段。总而言之,定义网页信息提取规则应该从定义信息结构入手,有两种方法:

  • FreeFormat识别是便捷的网页信息提取规则生成方法,FreeFormat识别功能能够利用Web网页上的语义标注信息自动地将网页信息的语义结构构建起来,快速生成网页信息提取规则,当前,Microformat和语义网络技术(例如,RDF)并未被广泛采用,所以,FreeFormat识别的能力也许发挥不出来,但是随着互联网向Web 3.0(语义网络)演进,FreeFormat识别将大有用武之地。
  • 手工定义信息结构一般用于目标页面的语义结构并不明显,没有有价值的语义标注信息,采用这种方法,要手工建立一个信息结构(V4.x版本称为FreeFormat整理箱),然后手工添加信息属性(也就是信息结构的字段),这个过程跟使用图形用户界面在关系数据库管理系统中创建一张表是一样的。

从V4.0.0版本开始,引入了更进一步的手工编写网页信息提取规则的手段,以增强MetaStudio的适用性,应对十分复杂的目标网页结构,有兴趣的读者可以阅读前述超链接指向的文章。

信息结构定义好以后,网页信息提取规则生成是由MetaStudio自动完成的,可以使用MetaStudio的界面工具验证网页信息提取规则的有效性微调网页信息提取规则的生成原则

当然,不必为网站的每个网页定义信息结构和网页信息提取规则,而是在代表同一类语义结构的样本页面上定义



为了帮助用户快速的学习使用MetaStudio,将发布一系列导读文章,提示用户为解决某个问题应该阅读哪些产品资料。全面地用户手册和产品资料是MetaSeeker系列产品的竞争优势,GooSeeker持续不断地投入巨资开发技术资料和使用指导,帮助用户降低学习成本,尽快使用MetaSeeker创造价值