配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《多层嵌套样例复制》 前面我们用样例复制的方法来采集列表网页 。但是很多页面上只有一部分是列表,可以做样例复制,其它部分不属于列表,不需要做样例复制。 比如下面的豆瓣电影短评页面。 要解决这样的局部样例复制问题,可以用嵌套整理箱的方法,把需要样例复制的部分放在一个小的整理箱里。 本教程就以上面的页面为例,讲解具体的嵌套整理箱的操作方法。 教程案例 采集规则:嵌套案例(可点击下载) 样本网址:https://movie.douban.com/subject/34874432/comments?status=P 采集内容: 电影、导演、主演、类型、地区、片长、上映、短评列表、作者、星级、时间、评论、有用 操作步骤: 1. 先标注不需要做样例复制的字段 打开页面,页面右边的导演,主演,类型,地区,片长等这些字段是不需要样例复制的,对这些字段进行标注,标注的详细操作可以参考采集网页数据。 这部分标注完成后,工作台的字段如下图所示。 2. 做嵌套整理箱 2.1 标注短评列表里的第一个字段 比如我们要采集电影短评列表里的作者,在页面上双击第一个短评的作者,做标注。 2.2 添加嵌套整理箱 在工作台上,鼠标右键点击“作者”,选择添加-上方。 按提示,输入嵌套整理箱的名字。 在工作台右移“作者”,使得“作者”相对于“短评列表”向右缩进,形成包含的位置关系。这样就把“短评列表”设置为一个整理箱,整理箱里有“作者”这个字段。 继续在页面上标注第一个电影短评里其它字段,这些字段应该都与“作者”对齐,包含在短评列表里。 注意:为了后面的样例复制,所有的标注都要在第一个电影短评里做。 2.3 样例复制 我们要采集每一条影评里的作者,星级,时间,评论,不需要去标注每一条影评。只需要标注第一条影评,然后用样例复制的方法,就可以采集到页面上的所有影评。 如果再加上翻页设置,爬虫可以自动翻页,批量采集到多页的影评。 本例中的样例复制是针对“短评列表”这个整理箱的,具体的操作过程如下。 样例1映射 最后一个选项是整理箱选择,一定要选择“影评列表”。 样例2映射 这样我们就完成了嵌套整理箱的设置,并且对嵌套整理箱做了一个样例复制。 然后测试,保存任务,采集数据。这些具体的操作过程见前面教程采集网页数据 本例采集到的数据: |