采网址做层级采集——以大众点评为例

2016-10-19 11:05| 发布者: ym| 查看: 55092| 评论: 27

摘要: 一、操作步骤前面写过两篇教程，《采集列表数据》是采集大众点评的列表页，《采集网页数据》是采集大众点评的店铺详情页，很多人想把这两个串在一起，这样就能批量采集店铺详情页的数据了。下面我们通过层级采集来 ...

配套软件版本：V9及更低集搜客网络爬虫

新版本对应教程：V10及更高数据管家——增强版网络爬虫 的对应教程是《爬网址做层级采集——以京东商品爬虫为例》

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

前面写过两篇教程，《采集列表数据》是采集大众点评的列表页，《采集网页数据》是采集大众点评的店铺详情页，很多人想把这两个串在一起，这样就能批量采集店铺详情页的数据了。下面我们通过层级采集来实现，它是通过网址关联起两级页面，从而实现批量采集第二级页面。下面还是以大众点评为例，讲解如何设置层级采集。操作步骤如下：

请注意：如果定义完第一级规则紧接着定义第二级规则，请清空工作台后再定义第二级规则，防止把第一级规则的内容带到第二级来。清空工作台的方法是使用菜单：规则-》新建。

二、案例规则+操作步骤

第一级采集规则：大众点评列表（可点击下载）
第一级样本网址：http://www.dianping.com/search/category/7/10/g103r6013
第一级采集内容：每一个店铺的名称、评论数、人均消费、地理位置、菜系、口味、环境和服务、网址
第二级采集规则：大众点评店铺信息（可点击下载）
第二级样本网址：http://www.dianping.com/shop/32656893
第二级采集内容：店铺名称、地址、电话

第一步：定义第一级规则的具体操作可以参考文章《采集列表数据》，如需设置翻页，请参考文章《翻页采集列表》，下面从第二步操作讲起。

第二步：设置下级线索

2.1，网址通常是存在attributes下的@href节点中。在浏览器上直接点击商品的标题定位到网页节点H4，展开它的下层节点，没有找到@href，再找它的上层节点A，找到@href，注意要检验一下是否为对应的下级网址，再右击@href选择“内容映射”->“新建抓取内容”，输入标签名（任意命名），比如，“网址”。