竞争情报数据提取

互联网是信息的海洋,然而有价值的信息不是信手拈来的,就像金子隐藏在大量的沙粒之间,需要有效的方法和工具,这是难点所在;另一方面,信息的价值是仁者见仁智者见智的,在别人眼里没有价值的信息,经过科学挖掘,就可以发掘出劣石中孕育的美玉,这是机会所在。MetaSeeker工具包能够帮助用户克服困难抓住机会,在此,我们举一个竞争情报提取的例子。

在浏览网络时,我们一般很讨厌扰乱注意力的各种广告,然而,广告里面蕴藏着一些重要的竞争情报,例如,竞争对手在某个时期在什么类型的网页上发布了什么风格的广告,或者同一个竞争对手在多个网站同步发布了哪些广告,以达到什么样的整合营销传播的目的,凡此等等。

要挖掘隐含在庞大的数据中的竞争情报,首先需要将有效数据精确地提取下来,并且转换成包含语义结构的信息,这样才能够存储到数据库或者数据仓库中,当前的各种数据挖掘工具和商业智能/商业情报工具几乎无一例外的只能处理有结构的数据库中的数据
然而,从互联网上提取广告信息却不是一件容易事,同普通网页内容不同,广告的展现手段要复杂得多,而且,很多广告来自于广告销售网络,例如,一个小网站的广告来自于Google。所以,广告展现时使用了很多技术导致普通的网络爬虫无法提取广告信息,例如,使用HTML框架(FRAME/IFRAME)从第三方信息源下载广告内容,使用Javascript管理内容的显示等等,MetaSeeker与之不同,其完整的浏览器引擎可以将浏览器展现的东西都提取下来,这个特性确立了MetaSeeker在竞争情报数据提取方面无与伦比的竞争地位。


Figure 1(Enlarge)

上图各组成部分解释如下:

  • 多个信息源:为了使竞争情报分析结果更准确,信息源应该尽量广泛,MetaStudio提供了一整套信息结构定义方法,使信息提取(网页抓取/抽取)规则的定义过程变得简单易行,大大降低了扩展信息源范围的成本。
  • MetaSeeker工具包:这部分用一个云图表示,因为MetaSeeker工具包中的多个工具组成一个数据提取网络。MetaSeeker工具包将多个信息源上的广告信息提取(抓取/抽取)下来,存储成含有语义结构的XML文件。
  • 数据入库适配器:本适配器不是MetaSeeker工具包中的工具,而是第三方合作厂商提供的,如有需要可联系我们,我们将一些成功案例的适配器推荐给用户。该适配器读取MetaSeeker数据库中的数据提取结果文件,使用某个适配逻辑将数据提取结果注入到BI(商业智能或商业情报)的数据库系统中。
  • BI系统:该系统由第三方提供,用户自行选择,由数据入库适配器进行适配。