在《采集电子商城价格信息建立商品比价系统》一文我们展示了一个更平凡的电子商务网站信息提取的方案,在企业内部的商业智能(BI)领域或者竞争性商业情报分析领域,电子商务网站信息提取的需求有些不同,一般会根据企业专门的情报采集和分析需求对应用系统进行一定工作量的定制开发。本文将展示这样一个案例。
每天定时一批或者多批从卓越和当当网站上自动化地采集图书信息,每批数量是有限的,例如,1万项商品,而不是全网站采集。将下述信息从网页上提取出来:
将提取到的信息转换成商业情报分析系统需要的格式(例如,EXCEL,CSV,SQL等),并自动传送给分析系统。
目标网站上的图书数量总共在2百万以上,而且持续补充新的图书商品,因为网站信息采集工具包MetaSeeker的性能很高,如果每天都将目标网站全网采集一遍,采集成本是比较低的,也是一种可行的方案。但是,通过一定工作量的定制,可以重点突出监控特征,每天仅仅采集要求监控的商品的价格。
信息提取结果样例和信息提取规则生成过程与《采集电子商城价格信息建立商品比价系统》完全一致,不再赘述。
首先,进行一次全网提取,将两个网站的现有图书的信息和网页URL都提取下来,存入专门定制的数据库中,建立书名和ISBN与URL的对应关系,即对查表。
然后,每天需要提取的1万或2万本书的书名或者ISBN输入到该系统中,查询获得对应的URL,向这些URL发起信息提取请求。
因此,该方案的信息提取工作分成两个阶段:

如图所示,