实例1:黄页分类线索的提取

大部分的商业名录网站,将所有代表企业或其他实体的名录进行了分类,展现在一个分类页面上,用户从这个分类页面可以导航到某个类下的名录页面,如果要提取所有的名录信息,可以将这个分类页面作为入口,采用下面的步骤:

  1. 从这个分类页面上提取所有的分类线索;
  2. 利用这些分类线索,将某类名录整个提取下来;
  3. 还可以进一步利用名录中能够导航到企业或者其他实体的主页上的线索,进入企业主页,将企业实体的具体信息提取(抓取/抽取)下来。

注意:当前MetaStudio仅提供ListBucket整理箱,该整理箱一般用来提取二维表格信息,在黄页分类页面上,分类信息一般是树状结构,使用ListBucket提取类别和子类别信息不太合适。本例只提取线索信息。

本用例完成上述三个步骤中的第一步,实例2实例3分别完成第二和第三步。目标网站是http://www.locoso.com/html/hyfl.html

要提取分类线索,需要进行下面的步骤:

  1. 使用MetaStudio在黄页的分类页面上描述信息结构,并上载信息提取(网页抓取/抽取)指令文件
  2. 使用DataScraper提取分类线索。