网页内容抽取软件工具包MetaSeeker V4.0.0即将发布

网页抓取/数据抽取/信息提取软件工具包MetaSeeker V3系列版本的最大功能特性是采用了FreeFormat技术,能够高精度地抽取复杂语义结构的数据,例如,使用树状结构保存内容抽取结果,而在V2及其以前版本只能采集网页上的表状内容。然而,FreeFormat技术实现时隐藏了多个能够导致Mozilla浏览器引擎崩溃的bug,即将发布的V4版本对所有代码进行了全覆盖走读和检视,大大提高了系统的稳定性。另外值得期待的其它特性有:

  • DataScraper抓取目标页面的算法进行了改进,不再等待所有页面元素加载完成才开始抽取内容,因此数据抽取速度大大提高,
  • DataScraper实现了自动周期性采集目标网站内容
  • 异构数据对象搜索引擎SliceSearch程序源代码将受控发布