监控电子商务网站进行竞争性商品定价

在《采集电子商城价格信息建立商品比价系统》一文我们展示了一个更平凡的电子商务网站信息提取的方案,在企业内部的商业智能(BI)领域或者竞争性商业情报分析领域,电子商务网站信息提取的需求有些不同,一般会根据企业专门的情报采集和分析需求对应用系统进行一定工作量的定制开发。本文将展示这样一个案例。


需求分析

每天定时一批或者多批从卓越和当当网站上自动化地采集图书信息,每批数量是有限的,例如,1万项商品,而不是全网站采集。将下述信息从网页上提取出来:

  • 商品编号(ISBN)、
  • 商品名、
  • 监测网站、
  • 商品网址、
  • 监测日期、
  • 监测时间、
  • 商品定价、
  • 销售价格、
  • 是否促销、
  • 是否可售

将提取到的信息转换成商业情报分析系统需要的格式(例如,EXCEL,CSV,SQL等),并自动传送给分析系统。

目标网站上的图书数量总共在2百万以上,而且持续补充新的图书商品,因为网站信息采集工具包MetaSeeker的性能很高,如果每天都将目标网站全网采集一遍,采集成本是比较低的,也是一种可行的方案。但是,通过一定工作量的定制,可以重点突出监控特征,每天仅仅采集要求监控的商品的价格。



信息提取结果样例

信息提取结果样例和信息提取规则生成过程与《采集电子商城价格信息建立商品比价系统》完全一致,不再赘述。



方案设计

首先,进行一次全网提取,将两个网站的现有图书的信息和网页URL都提取下来,存入专门定制的数据库中,建立书名和ISBN与URL的对应关系,即对查表。

然后,每天需要提取的1万或2万本书的书名或者ISBN输入到该系统中,查询获得对应的URL,向这些URL发起信息提取请求。

因此,该方案的信息提取工作分成两个阶段:

  • 第一阶段:建立书名/ISBN与URL的对应表,该阶段执行成本高,而且要求完成的时间越短,信息提取密度越高,成本越高。
  • 第二阶段:每天例行提取1万或2万本图书的价格和相关信息,在上述定制系统和第一阶段的工作基础上,该阶段成本很低。


系统结构


Figure 1(Enlarge)

如图所示,

  • MetaSeeker采用信息采集云计算框架,实现高性能、高密度网站信息采集和提取,其中包括MetaStudio、DataScraper、MetaCamp、DataStore等四个软件客户端工具和服务器
  • MetaCorpora是MetaSeeker工具包的另一个软件,是文本分类语料库管理器和网络信息提取结果预处理工具,在本方案中,增加一个定制模块,将第一阶段全网采集到的信息导入数据库,建立书名/ISBN和URL的对查表。
  • MetaSeeker中的DataScraper工具能够周期性自动地从目标网站上提取信息,本解决方案定制另外一个模块,接收用户提交的待查书名或ISBN,可以成批接收,查找到URL后生成信息提取线索,供DataScraper实用。