快捷导航

采集网页数据

2016-9-28 10:28| 发布者: ym| 查看: 33833| 评论: 9

摘要: 一、操作导航图 下面用大众点评网作为案例,给大家演示如何用直观标注的方式采集网页数据,操作步骤如下: 二、案例规则+操作步骤 采集规则:大众点评店铺信息(可点击下载) 样本网址:http://www.dianping.com/sho ...

一、操作步骤

下面用大众点评网作为案例,给大家演示如何使用直观标注的功能采集网页数据,操作步骤如下:


二、案例规则+操作步骤

第一步:打开网页

1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

注意:这里的截图和文字说明都是GS爬虫浏览器版 ,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台

1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

Tips:为了能准确定位网页信息,点击“定义规则”会把整个网页定格住,不能跳转网页链接,再次点击定义规则,才会恢复回普通的网页模式。


第二步:标注需要采集的信息

2.1,标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。


2.2,重复上一步操作来标注地址、电话信息。


2.3,最好设置“关键内容”选项,这是爬虫判断是否采集的标志。在整理箱里选一个网页上必然能采到的标签,勾上“关键内容”。


第三步:存规则,抓数据

3.1,点击“测试”,检查信息完整性。不完整的话,对整理箱的标签右击删掉后,再重新标注即可。

3.2,点击“存规则”。规则不仅可以随时加载修改,还可以批量采集同类型网页,详见《如何管理规则的线索》

3.3,点击“爬数据”,弹出DS打数机开始采集数据,测试采集规则是否有效。除了通过“爬数据”按钮来启动采集任务之外,还有其他运行方式,详见《DS打数机采集数据集》


第四步:查看数据

4.1,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》


上篇文章:《集搜客网络爬虫的核心名词》                                                            下篇文章:《采集列表数据》
若有疑问可以集搜客爬虫软件
34

鲜花
2

握手
1

雷人

路过
5

鸡蛋

刚表态过的朋友 (42 人)

相关阅读

发表评论

最新评论

评论 shengchengx 2017-8-31 16:13
LYS1989: 按教程做不出来呀
有什么问题么?
评论 LYS1989 2017-8-31 15:53
按教程做不出来呀
评论 shengchengx 2017-6-28 09:48
15018704704: 教程复杂,表示看了头晕。
可以对着一步一步的来做呢,做一遍之后就差不多了
评论 15018704704 2017-6-28 09:46
教程复杂,表示看了头晕。
评论 数据搜集爱好者 2017-6-14 17:18
简单入门,先从采集单条数据起步。
评论 Fuller 2017-5-29 18:40
hehehe901: 为什么点击”测试“之后,“输出结果”只显示一条结果
这个教程只讲采集单条数据,要采集所有列表的话,要看这个教程:http://www.gooseeker.com/doc/article-330-1.html
评论 hehehe901 2017-5-29 17:01
为什么点击”测试“之后,“输出结果”只显示一条结果
评论 Fuller 2017-1-14 21:27
seekershan01: 不弹出小窗
哪个小窗弹不出来?
评论 seekershan01 2017-1-14 20:41
不弹出小窗

查看全部评论(9)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-21 04:11