安装网页文字抓取器/网络爬虫工具软件MetaSeeker

本手册仅仅讲解网页抓取/数据抽取/网络爬虫软件工具包MetaSeeker V4.0.0的客户端软件的安装和配置方法,客户端软件提供图形化用户界面(GUI),包括以下两个软件工具:

  • MetaStudio V4是Web页面信息结构描述工具,自动生成Web网页信息提取规则文件,供DataScraper使用。MetaStudio提供友好的GUI界面,作为Firefox扩展(Firefox extension)发行,不同的操作系统平台和Firefox版本有不同的发行包,敬请仔细阅读后面的章节分别下载;
  • DataScraper V4是Web页面信息提取工具,内含基于工作流框架的定题网络爬虫(也叫聚焦网络爬虫),主要提取网页文字、页面超链接URL、HTML网页元素的属性值等等,并不直接下载图片、视频或者其它文件,而是提取文件的URL地址。被提取的内容根据信息结构描述格式化成XML文件,方便集成到各种网络应用中。提供友好的GUI界面,作为Firefox扩展(Firefox extension)发行,V4.10.0版本以前,DataScraper可以跨平台部署,所有操作系统和Firefox都可以部署同一个datascraper.xpi;到V4.10.0版本,DataScraper分成高性能版和普通版,高性能版不能跨平台部署,不同的操作系统平台和Firefox版本有不同的发行包,普通版仍然能够跨平台部署,但是,由于普通版诸多性能缺陷,仅存于V4.10.0等过渡期,到V5版本,普通版将不再发行,敬请仔细阅读后面的章节分别下载;

无论企业版还是在线版,客户端软件的安装配置方法是一样的。除了客户端软件以外,还有服务器侧两个应用服务器:

  • DataStore是信息提取指令文件管理服务器,并且负责用户权限管理和访问控制,确保每个MetaSeeker用户在自己的域中工作。
  • MetaCamp是信息结构和其它元数据管理服务器,管理语义结构知识库和网络爬虫导航地址库。

MetaSeeker在线版用户使用公网上的DataStore和MetaCamp服务器,不必关心两者的安装和配置,只需在MetaSeeker客户端工具软件中正确配置两个服务器地址即可。