使用MetaSeeker工具包提取Web页面信息的基本步骤是:
- 使用MetaStudio描述目标页面的信息结构,生成信息提取(页面抓取/抽取)规则,存于信息提取指令文件中,同时生成信息提取工作流指令文件。该步骤在MetaStudio用户手册中说明。
- 使用DataScraper浏览和查询主题。在主题列表区点鼠标右键菜单“List”可以列出所有主题,也可以在列表下方的输入框中输入要查询的主题名(支持通配符*),回车后查询匹配的主题。
- 使用DataScraper对选定的主题进行信息提取(页面抓取/抽取)。在主题列表区点鼠标右键菜单“Crawl”,填写需要连续爬行的线索数量,提交后,系统将开始网络爬行和信息提取。
第一个步骤描述目标页面信息结构,由MetaStudio完成;第二和三个步骤提取Web页面信息,由DataScraper完成,可见DataScraper是Web页面信息提取(页面抓取/抽取)任务的执行者。