快捷导航

采集列表数据

2016-9-28 16:53| 发布者: ym| 查看: 10674| 评论: 9

摘要: 一、操作导航图 采集列表网页时,可以看到多条结构相同的信息,我们把这些结构化信息称为样例,例如,表格中的每一行就是样例,搜索结果中的每个结果也是样例。对于具有两个样例以上的网页,做上样例复制映射就能实 ...

一、操作步骤

采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,百度搜索结果中的每个结果也是一个样例。具有两个样例以上的网页,做样例复制映射就能把整个列表都采集下来。下面用大众点评网作为案例,操作步骤下:


二、案例规则+操作步骤

第一步:打开网页

1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,可以看到一个浮窗显示出来,称为工作台,在上面定义规则;

1.2,在工作台中输入主题名,可以点击“查重”看看名字是否被占用。


第二步:标注信息

2.1,在浏览器窗口双击要采集的内容,在弹出小窗中输入标签名,打勾确认或Enter,即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。

2.2,重复上一步骤,对其他信息进行标注。

2.3,最好设置“关键内容”选项,这样爬虫才能判断出采集规则是否合适。在整理箱中选一个网页上必然能采到的标签,勾上“关键内容”。本例中对“店铺名称”勾选(如下图)。


第三步:样例复制

3.1,在整理箱里选中容器节点“列表”(所谓容器节点,就是包含下级抓取内容),如下图启用样例复制功能;


3.2,在浏览器上找到第一个样例所在的网页区域。过程是:点击网页上第一个样例(蓝色框)的某个文字,可以看到在DOM树(窗口的下部窗口,网页标签用一个层次化的树状结构表示)上定位到了某个html标签。往上逐层找到能框住整个样例的标签,只要注意观察,就能发现往上找标签的时候,浏览器区域变成黄色背景,而且逐步扩大,等黄色背景能框住所有抓取内容的时候,这就是第一个样例的潜在区域,它是用一个HTML节点代表的。注意这只是一个“潜在”的可用节点,还要观察一下它的兄弟节点,如上图,第一个LI下面的兄弟全部是一样的LI,那么这个潜在区域就是我们要的。每个样例都是相同类型的“兄弟”节点所代表的。如果找不到相同的兄弟,还应该继续往DOM树的上层找;

3.3,右击代表第一个样例的HTML节点,选择“样例复制”->“第一个”,在样例复制管理框中就会看到样例1被映射了一个节点编号。

3.4,同理,选中相邻的下一个HTML节点(红色框),右击选择“样例复制”->“第二个”。


第四步:存规则,抓数据

4.1,规则测试成功后,点击“存规则”;

4.2,点击“爬数据”,弹出DS打数机,开始抓取数据。

4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,可更改存储路径,详情见文章《查看数据结果》


上篇文章:《采集网页数据》                                                                       下篇文章:《翻页采集》


若有疑问可以集搜客爬虫软件
11

鲜花

握手

雷人
2

路过
2

鸡蛋

刚表态过的朋友 (15 人)

相关阅读

发表评论

最新评论

评论 gz51837844 2017-7-15 13:19
大锅方便面: 请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。  这是什么原因造成的呢?谢谢 ...
有可能页面还没有加载完全就执行抓取了,你可以把DS打数机的菜单项:配置-》滚屏参数->滚屏次数 设置成正整数,比如2,再试试抓取
评论 大锅方便面 2017-7-15 12:41
请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。  这是什么原因造成的呢?谢谢
评论 何波波 2017-6-28 15:27
潇潇_520: 为什么我的数据好多重复的呢
规则名是什么?到论坛上发个帖子把规则名和问题写上
评论 潇潇_520 2017-6-28 14:51
为什么我的数据好多重复的呢
评论 shenzhenwan10 2017-1-22 21:35
muxi92: 你好,想问一下,这个采集列表数据每次是只能爬一页网页的数据吗
可以定义自动翻页, 每翻一页, 就采集一次. 整个过程是自动的
评论 muxi92 2017-1-22 19:27
你好,想问一下,这个采集列表数据每次是只能爬一页网页的数据吗
评论 shenzhenwan10 2016-12-24 21:55
晴时有风阴有时雨: 想问一下 为什么我爬取到的地理位置是乱码的呢?是类似这样的/search/category/7/0/r1566
你可以到使用交流版块,把你的主题名,问题描述发个帖子,技术人员可以帮你分析下
评论 shenzhenwan10 2016-12-24 21:54
可能你的规则有问题, 类似/search/category/7/0/r1566这样的,是同一网站另一个页面的链接
评论 晴时有风阴有时雨 2016-12-24 21:37
想问一下 为什么我爬取到的地理位置是乱码的呢?是类似这样的/search/category/7/0/r1566

查看全部评论(9)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-22 06:44