基于工作流的分布式网站抓取器DataScraper

DataScraper是一个通用的网站抓取器,内核是一个工作流引擎,高度模块化,可塑性极高,网站抓取过程完全基于网站抓取规则文件驱动,这些文件由语义结构和网站抓取规则定义器MetaStudio自动生成。DataScraper和MetaStudio分工合作,帮助用户快速抓取网站内容,建设垂直搜索、进行商业情报分析、建立商业智能系统等等。

网站抓取器DataScraper作为Firefox(火狐浏览器)扩展,部署在客户端,同部署在服务器的网站抓取器相比,运营成本大大降低,计算机、带宽、IP地址等资源使用费用远低于服务器侧解决方案,由于部署条件要求很宽松,所以,运营维护成本大大降低,在网站抓取服务系统MetaSeeker的服务器配合下,DataScraper的部署不受地域和数量限制,用户可以建设一个跨地域的大型的网站抓取网络(在海量网站抓取应用环境,用户可以选择部署企业私有的MetaSeeker服务器,即MetaSeeker企业版),由于使用动态IP地址,被抓取的网站的反爬虫策略难于奏效。另外,由于采用基于DOM+XPath+XSLT的独特的网站抓取策略,Javascript动态生成内容同服务器动态网页和静态网页一视同仁,最适合精度要求高、渗透力要求强的商业情报采集领域,例如,眼下火热的开源情报采集

本版本相比上一版本,网站抓取器DataScraper的功能和性能进行了大幅改进:

  • 实现了周期性增量网站内容抓取
  • 改进了网站内容抓取算法,大大提高了抓取效率,当使用周期性抓取时,通过设置周期性网站抓取指令文件可以选择是否使用加速的网站抓取算法。
  • 在DataScraper GUI界面上,再次启用索引库管理工具,并进行了改进,部署和使用异构数据对象搜索引擎SliceSearch(demo参见威客任务搜索和图书搜索)的用户可以利用该界面管理索引库和搜索引擎。
  • DataScraper界面分成了两类:经典界面和简化界面,当运行周期性增量网站抓取任务时,使用简化界面,不具有管理功能,只作为抓取任务状态观察窗口。

相比MetaStudio,网站抓取器DataScraper的使用十分简单,本手册将详细介绍DataScraper的使用方法。