定位标志精确采集范围——以安居客租房采集为例

2016-10-19 11:36| 发布者: ym| 查看: 28830| 评论: 8

摘要: 一、操作步骤 如果只是简单地把信息标注出来,可以采集到样本网页的数据,但是批量采集同类网页就可能会遇到失败。这种情况下需要加上定位标志映射以提高数据规则的精度和适应性,降低网页变化带来的影响。下面用安居 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《定位映射提高网页采集精度——以B站视频采集为例


注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤

如果是通过直接标注信息生成的规则,虽然用它能采集到样本网页的数据,但是批量采集同类网页时就可能采集失败,这是因为简单标注得到的数据规则不太通用,还要人工调整优化。这种情况下做定位标志映射可以提高数据规则的精确度和适应性,降低网页变化带来的影响。下面用安居客网作为案例,操作步骤如下:


二、案例规则+操作步骤

前面三步的具体步骤可以参考文章《采集列表数据》,下面从第四步讲解。

第四步:定位标志

4.1,点击标题进行定位,做定位标志映射的节点它必须要有属性值(id或class值),如果定位到的节点没有属性值就往上层找。在本例中,找到的div节点有属性值@class=zu-info,可以作为定位标志值。

4.2,右击DIV节点,选择“定位标志映射”->“标题”,映射后,在整理箱的定位标志和类型这两列,可以看到zu-info和+class,表示把@class=zu-info的节点映射给了标题,这时,标题既有内容映射又有定位标志映射。


4.3,重复4.1和4.2步骤,对整理箱的其他抓取内容也做定位标志映射。


第五步:存规则,抓数据

5.1,规则测试成功后,点击“存规则”;

5.2,点击“爬数据”,弹出DS打数机,开始抓数据。


Tips1:有以下两种情况需要调整一下定位类型。

1、如果做定位标志映射的节点同时有id值和class值,要选择与同类网页相同的那个属性值,这样才能实现批量化采集。所以需要人工选择属性的类型。操作:整理箱里双击抓取内容,定位标志类型选择“id”或者“class”,这个修改是对单个抓取内容生效的。


2、如果抓到空白信息或错位信息,需要调整整理箱的定位,选择合适的定位类型,通常选择“绝对定位”可以解决,这个修改是对整理箱生效的。更多方法见教程《做定位标志后抓到空/重复的信息,怎么解决


Tips2:对整理箱顶点或者容器节点做定位标志映射可以精确采集范围,避免采集到错位信息。

如果要采集页面上不同模块的信息,最好是建立多层嵌套的整理箱结构,一个容器节点负责采集一个模块,并且对整理箱顶点和容器节点都做上定位标志映射,这样就能互不干扰地精确采集各个模块的信息,避免采集到错位信息。


Tips3:下面是定位标志的使用范围。

1、定位标志虽然不是必须的,但会大大提高规则的精确度和适用性。

2、整理箱都做内容映射后,同一个定位标志值可以映射给多个抓取内容。

3、当一个容器节点做了样例复制后,不能再做定位标志映射给它,但是这个容器节点内部的抓取内容可以继续做定位标志映射。

4、当一个容器节点做了样例复制,其下级抓取内容选择样例1的html节点范围下的节点做定位标志映射才是有效的,不能跨到另一个样例里面选用html节点。


上篇文章:《采网址做层级采集》                                                       下篇文章:《定位标志——采集列表数据


若有疑问可以集搜客爬虫软件
4

鲜花
1

握手
1

雷人

路过

鸡蛋

刚表态过的朋友 (6 人)

相关阅读

发表评论

最新评论

评论 Fuller 2019-6-15 21:23
jane_dz: 测试数据显示抓取的数据是乱码,怎么解决文字显示问题?
乱码是什么样子?不同情况处理方法不一样。截个图看看。这里不好发图,可以专门在“使用交流”那个栏目里发个帖子,可以贴图
评论 fridtest123 2019-6-15 17:43
jane_dz: 测试数据显示抓取的数据是乱码,怎么解决文字显示问题?
工作台上点击测试出来的数据,有转义字符,没有关系。打数机采集下来的数据没有这些转义字符
评论 jane_dz 2019-6-15 17:19
测试数据显示抓取的数据是乱码,怎么解决文字显示问题?
评论 Fuller 2019-4-17 11:27
Heart2019: 先使用了样例复制,测试显示整页数据,对 样例一节点范围下的节点进行定位标志映射,测试后只显示一条数据,请问该怎么解决? ...
在“使用交流”板块,把主题名贴出来,那里有技术支持工程师,可以从后台分析你的规则的问题
评论 Fuller 2019-4-17 11:26
Heart2019: 请问文章中的样例复制是怎么做的?
你做样例复制,遇到什么问题了?可以在“使用交流”板块把问题说明和截图发出来看
评论 wangyong 2019-4-17 10:28
你可以试一下把整理箱中的定位改成偏好@class
评论 Heart2019 2019-4-16 21:32
请问文章中的样例复制是怎么做的?
评论 Heart2019 2019-4-16 21:24
先使用了样例复制,测试显示整页数据,对 样例一节点范围下的节点进行定位标志映射,测试后只显示一条数据,请问该怎么解决?

查看全部评论(8)

GMT+8, 2024-10-16 16:28