互联网是信息的海洋,然而有价值的信息不是信手拈来的,就像金子隐藏在大量的沙粒之间,需要有效的方法和工具,这是难点所在;另一方面,信息的价值是仁者见仁智者见智的,在别人眼里没有价值的信息,经过科学挖掘,就可以发掘出劣石中孕育的美玉,这是机会所在。MetaSeeker工具包能够帮助用户克服困难抓住机会,在此,我们举一个竞争情报提取的例子。
在浏览网络时,我们一般很讨厌扰乱注意力的各种广告,然而,广告里面蕴藏着一些重要的竞争情报,例如,竞争对手在某个时期在什么类型的网页上发布了什么风格的广告,或者同一个竞争对手在多个网站同步发布了哪些广告,以达到什么样的整合营销传播的目的,凡此等等。
要挖掘隐含在庞大的数据中的竞争情报,首先需要将有效数据精确地提取下来,并且转换成包含语义结构的信息,这样才能够存储到数据库或者数据仓库中,当前的各种数据挖掘工具和商业智能/商业情报工具几乎无一例外的只能处理有结构的数据库中的数据。
然而,从互联网上提取广告信息却不是一件容易事,同普通网页内容不同,广告的展现手段要复杂得多,而且,很多广告来自于广告销售网络,例如,一个小网站的广告来自于Google。所以,广告展现时使用了很多技术导致普通的网络爬虫无法提取广告信息,例如,使用HTML框架(FRAME/IFRAME)从第三方信息源下载广告内容,使用Javascript管理内容的显示等等,MetaSeeker与之不同,其完整的浏览器引擎可以将浏览器展现的东西都提取下来,这个特性确立了MetaSeeker在竞争情报数据提取方面无与伦比的竞争地位。
上图各组成部分解释如下: