小白入门:直观标注采数据

2016-5-24 17:10| 发布者: HJLing| 查看: 29875| 评论: 1

摘要: 一、定义主题名1.1 打开MS谋数台,在网址处粘贴需要采集数据的网址,按回车键等待页面加载。1.2 看到下方的浏览器窗口已经加载出页面,并且右上的页面地址自动填上,说明页面已经加载完成。1.3 在主题名处填写规则主 ...

您现在看到的是旧版软件教程,新版软件的界面、功能经过全新改版,更加简单好用

学习新版教程请戳采集网页数据

一、定义主题名

1.1  打开集搜客,在右上角打开MS谋数台,在网址处粘贴需要采集数据的样例网址,按回车键等待页面加载。

1.2  看到下方的浏览器窗口已经加载出页面,并且右上的页面地址自动填上,说明页面已经加载完成。


1.3  在主题名处填写规则主题名,由于主题名不能重复,所以需要点击查重按钮查看当前主题名是否可用,弹出窗显示“该名可以使用”时就可以继续下面操作,否则需要更改当前主题名直至不重复。


二、定义规则

2.1  点击要采集的内容,这里点击商品名,可以看到商品名称变成黄底,表示被选中的信息。

2.2  再点击一次,会弹出一个输入框,输入抓取内容名称。

2.3  输入第一个抓取内容时,会弹出创建整理箱的弹窗,输入整理箱名称后,点击确认。

2.4  可以看到工作台页面已经建立了整理箱抓取内容。

2.5  同样对价钱和店铺做步骤2.1和2.2,可以看到工作台已经有3个抓取内容。

2.6  点击测试按钮。

2.7   弹出提示框,勾选关键内容是为了给爬虫执行采集提供判断标志,对于页面一定会出现的内容可以勾上"关键内容"。

2.8   这里给商品名勾选关键内容。

2.9  点击测试,可以看到下方输出信息会显示采集内容。可以看到目前采集到的只是一个商品的信息,要把整个页面上结构相同的商品信息都采集下来,就需要做样例复制。


三、样例复制

下面讲的是旧版软件的样例复制操作,对新手来说会有点复杂,新版软件操作更加简单,这里简单说一下,直接单击网页上第一个样例的任意位置,就会定位到dom窗口里的一个节点,鼠标右击节点选样例复制映射->第一个,再按照这个方法,单击网页上第二个样例的任意位置,又定位到dom里一个节点,右击选择样例复制映射->第二个,就完成了,详细说明见教程《采集列表数据》。

3.1     在创建规则工作台,点击列表,勾选启用样例复制。注意:只有容器节点才能启用样例复制。

3.2   选择第一个商品的样例节点,右击-样例复制映射-第一个。


3.3  同理对第二个商品做样例复制。

3.4  可以看到样例复制处显示样例复制的编号,再点击测试,可以看到输出信息已经有多个商品信息。

3.5   点击右上方存规则,再点击爬数据。

3.6  可以看到DS打数机在运行采集数据。


四、查看采集结果文件

数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可通过DS打数机的“文件-存储路径”来自定义结果文件的存储路径。


五、xml转excel

每采集一个网页,就会得到一个xml数据文件,如果是连续翻页采集,那么每翻一页都会生成一个xml文件,通过把xml转为excel,可以合并到一个excel文件中,以供进一步的处理。操作方法见http://www.gooseeker.com/doc/thread-1821-1-1.html

这样子就完成了数据采集了,当然,GooSeeker不止这点能耐,采集图片、翻页采集、深入页面采集详细信息,通通不是问题,快跟着教程开启数据采集之路吧!


若有疑问可以集搜客网络爬虫
31

鲜花
2

握手
3

雷人

路过
10

鸡蛋

刚表态过的朋友 (46 人)

相关阅读

发表评论

最新评论

评论 find123456 2018-3-26 16:45
真jb难用,这是给人用的吗?这么一大串规则,还不如我自己写代码好了,用软件就是图快!

查看全部评论(1)

GMT+8, 2024-10-11 20:43