快捷导航

采集列表数据

2016-9-28 16:53| 发布者: ym| 查看: 15284| 评论: 15

摘要: 一、操作导航图 采集列表网页时,可以看到多条结构相同的信息,我们把这些结构化信息称为样例,例如,表格中的每一行就是样例,搜索结果中的每个结果也是样例。对于具有两个样例以上的网页,做上样例复制映射就能实 ...

一、操作步骤

采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,百度搜索结果中的每个结果也是一个样例。具有两个样例以上的网页,做样例复制映射就能把整个列表都采集下来。下面用大众点评网作为案例,操作步骤下:


二、案例规则+操作步骤

第一步:打开网页

1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,可以看到一个浮窗显示出来,称为工作台,在上面定义规则;

1.2,在工作台中输入主题名,可以点击“查重”看看名字是否被占用。


第二步:标注信息

2.1,在浏览器窗口双击要采集的内容,在弹出小窗中输入标签名,打勾确认或Enter,即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。

2.2,重复上一步骤,对其他信息进行标注。

2.3,最好设置“关键内容”选项,这样爬虫才能判断出采集规则是否合适。在整理箱中选一个网页上必然能采到的标签,勾上“关键内容”。本例中对“店铺名称”勾选(如下图)。


第三步:样例复制

3.1,在整理箱里选中容器节点“列表”(所谓容器节点,就是包含下级抓取内容),如下图启用样例复制功能;


3.2,在浏览器上找到第一个样例所在的网页区域。过程是:点击网页上第一个样例(蓝色框)的某个文字,可以看到在DOM树(窗口的下部窗口,网页标签用一个层次化的树状结构表示)上定位到了某个html标签。往上逐层找到能框住整个样例的标签,只要注意观察,就能发现往上找标签的时候,浏览器区域变成黄色背景,而且逐步扩大,等黄色背景能框住所有抓取内容的时候,这就是第一个样例的潜在区域,它是用一个HTML节点代表的。注意这只是一个“潜在”的可用节点,还要观察一下它的兄弟节点,如上图,第一个LI下面的兄弟全部是一样的LI,那么这个潜在区域就是我们要的。每个样例都是相同类型的“兄弟”节点所代表的。如果找不到相同的兄弟,还应该继续往DOM树的上层找;

3.3,右击代表第一个样例的HTML节点,选择“样例复制”->“第一个”,在样例复制管理框中就会看到样例1被映射了一个节点编号。

3.4,同理,选中相邻的下一个HTML节点(红色框),右击选择“样例复制”->“第二个”。


第四步:存规则,抓数据

4.1,规则测试成功后,点击“存规则”;

4.2,点击“爬数据”,弹出DS打数机,开始抓取数据。

4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,可更改存储路径,详情见文章《查看数据结果》


上篇文章:《采集网页数据》                                                                       下篇文章:《翻页采集》


若有疑问可以集搜客爬虫软件
14

鲜花

握手

雷人
2

路过
3

鸡蛋

刚表态过的朋友 (19 人)

相关阅读

发表评论

最新评论

评论 wekrior 2017-11-1 21:59
wekrior: 单个测试的时候是好的。  列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下:  <代码>601668</代码>   <名称>中国建筑</名称>   <最新价> ...
自问自答吧。今天刚开始用的新手。

定位 方式改成绝对定位就OK了。
评论 Fuller 2017-11-1 21:55
wekrior: 单个测试的时候是好的。  列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下:  <代码>601668</代码>   <名称>中国建筑</名称>   <最新价> ...
你到使用交流版块去发,可以发图片,文字,链接,这里是受限的。按照这个帖子的方法,可以解决你的问题:http://www.gooseeker.com/doc/article-232-1.html
评论 wekrior 2017-11-1 21:46
单个测试的时候是好的。

列表就怕不出数据了。结果都是重复的,求解
样例复制后,爬出来结果如下:

<代码>601668</代码>
                <名称>中国建筑</名称>
                <最新价>详情</最新价>
                <今日涨跌幅>详情</今日涨跌幅>
                <主力净流入>详情</主力净流入>
                <主力净占比>详情</主力净占比>
                <超大单净流入>详情</超大单净流入>
                <超大单净占比>详情</超大单净占比>
                <大单净流入>-1.40亿</大单净流入>
                <大单净占比>-1.40亿</大单净占比>
                <中单净流入>-1.40亿</中单净流入>
                <中单净占比>-1.40亿</中单净占比>
                <小单净流入>-1.40亿</小单净流入>
                <小单净占比>-1.40亿</小单净占比>


啊啊为什么发不了评论1111
评论 Fuller 2017-10-17 20:27
laughingduan: 如果是一个下拉列表没有文章,怎么能一直往下拉呢,比如<a href="http://www.meipai.com/square/59?single_column=1" target="_blank">http://www.meipai.com/square/59?single_column=1</a>
我试了试这个网页,在GS浏览器中滚轮就能显示更多内容。你可以先用连续动作中的滚屏动作试试,应该可以。如果不行的话就用滚轮动作。这类采集都归为瀑布流网页采集,教程:http://www.gooseeker.com/doc/article-373-1.html
评论 laughingduan 2017-10-17 19:13
如果是一个下拉列表没有文章,怎么能一直往下拉呢,比如http://www.meipai.com/square/59?single_column=1
评论 wfh8520 2017-8-1 14:43
shenzhenwan10: 可以定义自动翻页, 每翻一页, 就采集一次. 整个过程是自动的
你好,请问如何设置自动翻页呢?我也是一次只能采集到一页的数据。
评论 gz51837844 2017-7-15 13:19
大锅方便面: 请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。  这是什么原因造成的呢?谢谢 ...
有可能页面还没有加载完全就执行抓取了,你可以把DS打数机的菜单项:配置-》滚屏参数->滚屏次数 设置成正整数,比如2,再试试抓取
评论 大锅方便面 2017-7-15 12:41
请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。  这是什么原因造成的呢?谢谢
评论 何波波 2017-6-28 15:27
潇潇_520: 为什么我的数据好多重复的呢
规则名是什么?到论坛上发个帖子把规则名和问题写上
评论 潇潇_520 2017-6-28 14:51
为什么我的数据好多重复的呢
评论 shenzhenwan10 2017-1-22 21:35
muxi92: 你好,想问一下,这个采集列表数据每次是只能爬一页网页的数据吗
可以定义自动翻页, 每翻一页, 就采集一次. 整个过程是自动的
评论 muxi92 2017-1-22 19:27
你好,想问一下,这个采集列表数据每次是只能爬一页网页的数据吗
评论 shenzhenwan10 2016-12-24 21:55
晴时有风阴有时雨: 想问一下 为什么我爬取到的地理位置是乱码的呢?是类似这样的/search/category/7/0/r1566
你可以到使用交流版块,把你的主题名,问题描述发个帖子,技术人员可以帮你分析下
评论 shenzhenwan10 2016-12-24 21:54
可能你的规则有问题, 类似/search/category/7/0/r1566这样的,是同一网站另一个页面的链接
评论 晴时有风阴有时雨 2016-12-24 21:37
想问一下 为什么我爬取到的地理位置是乱码的呢?是类似这样的/search/category/7/0/r1566

查看全部评论(15)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-20 11:51