信息抓取系统MetaSeeker是一套完整的网络爬虫、信息抓取、信息结构化、结构化信息存储和检索解决方案,包括诸多客户端和服务器侧软件工具,最常用的客户端工具有两个(信息抓取系统MetaSeeker在线版只包括这两个工具):
- MetaStudio是语义结构定义和网站信息抓取规则生成软件,用户通过图形界面(GUI)标注目标网站的语义结构,MetaStudio根据标注和描述自动生成信息抓取规则。
- DataScraper是信息抓取执行软件,内核是专有的工作流引擎,用MetaStudio生成的信息抓取规则文件驱动DataScraper的网络爬虫和信息抓取软件部件,连续地或者周期性地抓取网站信息,并结构化成XML文件,方便进一步的信息集成,例如,建立垂直搜索、用于数据挖掘等。
DataScraper与信息抓取系统MetaSeeker中的其它软件配合进行网站信息抓取的基本步骤有:
- 用户使用MetaStudio在选好的目标网站的样本页面上定义信息结构,也就是目标网站信息的语义结构和定位抓取规则,然后,由MetaStudio自动生成信息抓取规则文件,并上载保存到MetaSeeker服务器上。该步骤在MetaStudio用户手册中详细讲解。
- DataScraper从MetaSeeker服务器上获得信息抓取指令文件,执行信息抓取任务,如果信息抓取任务十分繁重,可以在同一台计算机上运行多个DataScraper线程,或者在不同计算机上甚至不同地域运行DataScraper。信息抓取任务启动方法有两种:
- 手动启动:适合数据量小的应用场合,过程简述如下:
- 使用信息抓取软件DataScraper的主题列表浏览或者查询主题,即,在主题列表区点鼠标右键菜单浏览可以列出所有主题,也可以在列表下方的输入框中输入要查询的主题名(支持通配符*),回车后查询匹配的主题。
- 选中某个主题后,在主题列表区点鼠标右键菜单提取,填写需要连续爬行的网络爬虫线索数量,提交后,系统将开始爬行和信息抓取。
- 周期性增量抓取信息:信息抓取系统根据增量信息抓取配置文件按时启动多个DataScraper线程,自动执行信息抓取任务。
下面的章节将详细讲解信息抓取系统部件DataScraper的使用方法。