精确信息提取有什么意义

MetaSeeker区别于其他类似产品的最大特色之一是能够对Web信息进行精确提取,也就是在提取结果中没有语义不相关的信息。提取结果就像关系数据库中的一张表,每个字段中不会含有跟本字段语义不相关的内容。因此,像处理数据表一样可以使用规范的计算机算法对信息提取结果进行进一步处理,例如,信息挖掘或者与其它数据进行整合,而且不用任何人的干预,这是进行海量数据处理和挖掘的前提条件。


最能提现MetaSeeker特点的应用场合举例如下:

  • 从多个在线商城上将同类产品信息提取下来,提供比价服务;
  • 从大量的网站上采集特定某个领域的信息,提供垂直搜索服务;
  • 在缺少应用系统编程接口的情况下,将论坛或者博客内容迁移到新的服务平台上;
  • 在某个特定行业领域,从多个目标网站上持续采集商品市场信息,进行产品和市场竞争分析;

以上例子有个共同的特点:信息提取不是最终目的,后期还需要运行一个复杂的业务逻辑对提取结果进行处理,因此,提取结果必须要精确,像数据库表一样语义跟内容是匹配的。