快捷导航

什么都不懂的小白,请看这里!

2015-10-16 18:40| 发布者: wangyong| 查看: 41196| 评论: 33

摘要: 针对第一次接触爬虫的小白进行入门引导

集搜客想让你最便捷地获取数据,让你有“要什么就抓什么”的感觉,要记住核心要领:

第一步:先建立一个箱子,这里要存储你想抓的内容(术语叫:整理箱)

第二步:接着告诉集搜客程序,网页上哪个内容需要丢到箱子中(术语叫:映射)


集搜客能自动生成抓取规则。不用从技术角度去规划怎样循环,集搜客能自动处理这些技术过程。掌握了这两个要领,我们看看细节吧。

什么都不懂的小白们,一开始接触此类软件都会觉得好难啊,怎么这么多专业名词啊,我好晕啊!!!嘛~不要急呐~新技能的get哪会那么容易呢,玩个游戏要玩好都需要时间,更何况咱们还是做这么有技术含量的事呢。废话不多说,本文就是为了帮助小白建立学习的信心,只要你认真看完本文,成功抓取样本数据,你也就入门啦!撒花撒花~

注释:本文演示的抓取规则,可到资源库下载学习:集搜客怎样抓取网页数据演示规则,下载运行即可抓取样本数据


一、制作采集规则

如果把“抓取数据”比喻成“做一道数学题”的话,“规则”就是你要得到“计算结果”(就是数据)之前列出的“方程式”。后面的很多概念请好好看图哦,图上面都有标明的。

1,输入目标抓取网址,并给规则起个名

图1 

第一步:将要抓取的网址输入到MS谋数台的网址栏按ENTER键加载,底部浏览器窗口就会把网页加载显示出来。 

第二步:网页显示后,在“命名主题工作台”处输入主题名并 查重以确定主题名是否可用

2,新建整理箱

图2 

第一步: 点击新建按钮,在弹出的窗口中输入想要命名的整理箱名称。 

第二步: 在整理箱中创建抓取内容,右击整理箱名称选择 “添加→包容”(表示抓取内容包含在整理箱中)。继续添加的话,选择“包容”就是建立多层次的整理箱结构,选择“其前/其后”就是建立同级前后顺序的抓取内容。

第三步:勾选“关键内容”,选择整理箱中 重要且确定会在网页上出现的内容 勾上“关键内容”。

3,将网页内容映射到整理箱

 

图3 

第一步: 在浏览器窗口中点击目标数据——“商品名”(Apple/苹果iphone 6s)

第二步: 谋数台会自动定位到“商品名”的网页标签节点(A节点)。

第三步: 双击展开A节点,找到#text(文本信息通常储存在#text中)。

第四步: 点击#text,可在 “文本窗口” 内容中看到text的值;

第五步: 右击#text做 “内容映射” 到商品名称

抓取“商品价格”和抓取商品名称的操作步骤相同。

4,使用 样例复制 功能实现批量获取

图4 

第一步:点击容器节点 整理箱名

第二步:勾选启用,启用 样例复制 功能

第三步:分别找到第一个商品 和 第二个商品 对应的网页标签节点

第四步:右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1

第五步:右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2


5,规则测试成功后存规则

图5

第一步:点击 测试 按钮可以看到抓取的内容,并且检查数据是否完整准确

第二步:数据无误的话,点击 存规则,规则就会被保存到服务器中。

第三步:保存规则成功后,点击 爬数据 按钮就开始采集了。


二、启动打数机爬数据

1,爬数据

两种启动方法(两者选一即可):

第一种:直接点击MS里面 “存规则” 按钮后面的 “爬数据” 按钮

第二种:打开 DS打数机,在 “搜索框” 输入 主题名(可使用通配符*辅助搜索)搜索后点击单搜开始抓取数据。

第一种是快捷方式,窗口颜色不一样,功能比较少,第二种是通用方式。

图6

2,看结果

数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可自定义更改结果存储路径。

同时集搜客提供将XML批量导入EXCEL的工具。导入excel之后的数据,如图6所示。 

图7


本文主要是给什么都不懂的小白找一点学习的感觉,但是要真正解决需求,还是得从初级教程中级教程高级教程循序渐进地学习。因为很多需求,光靠上面那些步骤是没法搞定的,需要更多的操作。如果看懂了,就可以开始着手试试啦~


159

鲜花
4

握手
2

雷人
2

路过
17

鸡蛋

刚表态过的朋友 (184 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-3-1 09:30
潇湘夜雨zpb: 汉子也是
最新版入门教程在这里: http://www.gooseeker.com/doc/article-340-1.html
从这篇开始,看几篇,先掌握基本概念
评论 潇湘夜雨zpb 2017-3-1 08:15
Fuller: 这一篇小白指引是否符合你的口味:<a href="http://www.gooseeker.com/doc/article-266-1.html" target="_blank">http://www.gooseeker.com/doc/article-266-1.html</a>
汉子也是
评论 kokofan2016 2016-10-10 15:03
好棒
评论 Fuller 2016-9-22 15:19
要写毕业论文的苦逼妹子: 还是不太会,哇的一声就哭了T^T
这一篇小白指引是否符合你的口味:http://www.gooseeker.com/doc/article-266-1.html
评论 要写毕业论文的苦逼妹子 2016-9-22 13:41
还是不太会,哇的一声就哭了T^T
评论 longlongago 2016-8-12 22:30
好棒~果然是浅显易懂~~
评论 canalcheng 2016-8-10 16:16
绝对赞,小白也能够当爬数据的一把好手
评论 摇滚比卡丘 2016-7-31 11:42
小白居然学会啊~~~谢谢啊
评论 Fuller 2016-6-27 15:15
cleegeon: 好难啊啊啊 ~~~~~
GooSeeker提供直观标注,应该说是算比较容易的了,有些网页结构十分复杂,需要掌握一些高级技巧,那么做入门练习的时候选一个简单一些的网站做练习
评论 cleegeon 2016-6-27 14:25
好难啊啊啊 ~~~~~
评论 Fuller 2016-5-24 21:27
不必自己花时间,委托别人采数据即可,自己花时间和花钱是一样的。
qiankeyun1990: 我用了1个小时 发现还是不会用 果断删除  除非真的这个领域的 不然没人会深入花大把时间去搞这个  这个软件的普及性还有待提高 ...
评论 qiankeyun1990 2016-5-24 20:16
我用了1个小时 发现还是不会用 果断删除  除非真的这个领域的 不然没人会深入花大把时间去搞这个  这个软件的普及性还有待提高
评论 Fuller 2016-5-17 09:24
18046804885: 每次抓取的数据在“输出信息”哪里显示的非常分散 怎么回事?
答复参看:http://www.gooseeker.com/doc/thread-1780-1-1.html
评论 18046804885 2016-5-17 02:34
每次抓取的数据在“输出信息”哪里显示的非常分散 怎么回事?
评论 hantao911911 2016-4-28 15:43
饭团: 我win7用这个显示不全,最下面那半截被挡住了
点配置-界面布局-移动工作台
评论 Fuller 2016-4-13 00:18
willjac: 我按照步骤一步一步做的,然后在MS里面测试也没有问题。可是到DS运行完成后没有数据生成。这是怎么回事呢?
很可能是没有设置关键内容,如果没有设置,DS抓取的时候可能会漏掉数据。今天发布的新版本每次在存规则的时候都会询问是否要设置关键内容
评论 willjac 2016-4-12 23:35
我按照步骤一步一步做的,然后在MS里面测试也没有问题。可是到DS运行完成后没有数据生成。这是怎么回事呢?
评论 dj334dj 2016-4-10 11:48
哈哈  看懂了
评论 fang0802361061 2016-4-2 08:16
新来小白多学学
评论 Fuller 2016-3-21 17:58
王大雄: ERROR:映射给两个样例的应该是具有相同父节点的兄弟节点 怎么一直都是这里过不去啊?
样例复制的技巧在这里:http://www.gooseeker.com/doc/thread-706-1-1.html

查看全部评论(33)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-20 11:49