页面抓取软件的增强功能

页面抓取软件DataScraper V2.x版本提供了两个增强功能:Harvest ManagerIndex Manager,到V3.x版本,页面抓取结果文件存储在本地文件系统,而不再上载到DataStore服务器,所以Harvest Manager功能被删除了,同时Index Manager功能也被屏蔽掉了。发展到当前V4.x版本,索引库管理功能再次开启,但是与V2.x版本不同,索引库管理不再是DataStore服务器的一部分,而是发展成一个独立的含有专利技术的异构数据对象搜索引擎SliceSearch,威客任务搜索就是SliceSearch的一个演示网站。总之,本章所述内容都是针对部署了SliceSearch的用户而言,没有部署SliceSearch的用户可以跳过本章。

从实现原理方面观察,索引库管理器并不是页面抓取软件DataScraper的有机组成部分,而是一个Mozilla XUL overlay,将DataScraper图形界面作为一个载体,提供一个管理SliceSearch服务器的前台窗口。