大部分的商业名录网站,将所有代表企业或其他实体的名录进行了分类,展现在一个分类页面上,用户从这个分类页面可以导航到某个类下的名录页面,如果要提取所有的名录信息,可以将这个分类页面作为入口,采用下面的步骤:
注意:当前MetaStudio仅提供ListBucket整理箱,该整理箱一般用来提取二维表格信息,在黄页分类页面上,分类信息一般是树状结构,使用ListBucket提取类别和子类别信息不太合适。本例只提取线索信息。
本用例完成上述三个步骤中的第一步,实例2和实例3分别完成第二和第三步。目标网站是http://www.locoso.com/html/hyfl.html
要提取分类线索,需要进行下面的步骤: