Web信息抽取/网络爬虫软件工具MetaSeeker V4.0.0 版本说明

从MetaSeeker V3.x演进到V4.0.0版本,基于SAAS架构的MetaSeeker在线版框架日臻完美,V4.0.0版本可以看做是V3.x版本的增强(使用V3.x版本定义的Web信息抽取规则完全兼容通行),但是新推的几个重大特性不容小觑:

  • 允许两个不同层次的手工定制Web信息提取规则,而且无缝集成到系统自动生成的提取规则指令文件中,大大提高了信息提取的灵活性和自由度,通过定制XSLT指令,可以微调信息过滤、格式转换和其它信息提取过程,用单独一个XSLT指令文件即可完成某主题的信息提取,一步到位。通过定制XPath规则,可以发挥引擎的文本处理能力,达到使用正则表达式处理页面内容的效果。
  • 网络爬虫效率实现了跨越式提高,当目标页面十分复杂时,不再等待所有页面元素加载完才执行信息提取,而是目标信息就绪即触发提取过程。
  • 实现了自动调度周期性Web信息抽取,而且实现了两种自动调度策略:客户端调度和服务器侧调度,仅企业版支持服务器侧调度。使用自动调度周期性Web信息提取,可以持续地大批量地提取网站信息,窗口显示日志和文件日志两种手段,尽量减少人工干预和监控。
  • 图形化界面(GUI)友好性进一步提高,当用户刚开始学习使用MetaSeeker时,对于不当的操作,给出启发式提示,尤其重点提高了系统的鲁棒性,不再因为误操作导致程序关闭
  • 大大增加了使用手册的开发投入,而且使用手册和其它技术资料的开发将持续不断地进行,帮助用户快速掌握MetaSeeker工具。