工具:
您完成了数据提取规则和线索提取规则的定义,可以立即看一下映射是否合理和规则是否正确,您可以预览各种信息提取(页面抓取/抽取)指令文件,包括数据提取指令文件(XSLT文件,也叫MAP文件)、数据结构指令文件(GEM文件)、线索提取指令文件(SCE文件)、信息结构识别规则文件(DSD文件)以及信息提取(页面抓取/抽取)工作流指令文件(profile文件),如果在MetaStudio上预览这些文件时没有提示错误,说明DOM节点到信息属性和线索的映射是正确的。
您还可以在MetaStudio上查看规则和指令文件是否实用,系统会在当前的样本页面上使用各种指令文件进行提取测试,如果没有提示错误,您就可以使用基于工作流的信息提取(页面抓取/抽取)工具DataScraper尝试实际的连续的信息提取了。刚开始,连续提取的线索可以少一点,例如1或2个,因为,根据新定义的信息提取规则提取到的信息可能不能满足您的需求,您需要调整信息提取规则。经过几次尝试后,就可以进行长时间连续地信息提取了。详细操作过程参见MetaStudio用户手册和DataScraper用户手册。
在DataScraper的输出窗口中可以看到信息提取(页面抓取/抽取)中遇到的问题,如果您为同一个主题定义了多次信息提取(页面抓取/抽取)规则(即描述了多个信息结构),而且相互是有差别的,DataScraper将尝试哪个最适合,对于不适合的,将在日志输出窗口中提示出来,如果所有的都不适合,您就需要注意了,DataScraper将给出一个特别的提示,告知您当前页面不可识别,同时把当前的线索标定成unknownschema状态,您需要检查一下目标网站是否使用了不同页面模板显示同一主题下的信息,如果是,您可以在这个主题下以这个页面为样本再描述一个信息结构;如果这个页面显示的内容并不是您感兴趣的,大可不管unknownschema状态的出现。