表格型数据采集

2016-7-21 17:12| 发布者: HJLing| 查看: 16260| 评论: 0

摘要: 一些网页上的数据是以表格的形式呈现的,表格数据采集,和其他的网页数据采集的基本操作是一样的。 具体的操作是,把第一行表格的数据作为样例,将其中想要要抓取的数据做内容映射,然后对第一行和第二行做样例复制 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。


观看视频教程


一些网页上的数据是以表格的形式呈现的,表格数据采集,和其他的网页数据采集的基本操作是一样的。
具体的操作是,把第一行表格的数据作为样例,将其中想要要抓取的数据做内容映射,然后对第一行和第二行做样例复制映射,这样就能够把整个表格的数据抓取下来。如果需要翻页,在爬虫路线中设置翻页就可以。
下面详细说明每一步的具体操作。

本教程的样本页面为http://data.eastmoney.com/notice/

一、加载页面,定义主题名
1.1 将需要采集数据的页面网址复制粘贴到MS谋数台的网址处,并点击enter回车键,等待页面加载。
1.2 待页面加载完成后(即MS谋数台下方的浏览器窗口显示页面信息,并且右上方的页面地址自动填上网址),在右上方的主题名处填写主题名,点击查重按钮检查主题名是否被占用,主题名被占用将无法保存规则。


二、完成抓取内容映射
2.1 点击右上方的创建规则调转到创建规则工作台
2.2 点击要采集的内容,这里点击代码,代码变成黄底,表示该信息被选中。
2.3 再点击一次,会弹出一个输入框,输入抓取内容名称。
2.4 输入第一个抓取内容时,会弹出创建整理箱的弹窗,输入整理箱名称后,点击确认。



2.5 对其他需要抓取的数据重复做2.2和2.3,



2.6 点击测试按钮,弹出提示框,勾选关键内容是为了给爬虫执行采集提供判断标志,对于页面一定会出现的内容可以勾上"关键内容"。这里给代码勾选关键内容。


2.7 再次点击测试,可以看到下方输出信息会显示采集内容。可以看到目前采集到的只是一个商品的信息,要把整个页面上结构相同的商品信息都采集下来,就需要做样例复制。


三、采集多行表格数据——样例复制
3.1 点击整理箱列表,勾选启用样例复制。
3.2 选择第一行数据的样例节点,右击-样例复制映射-第一个。 


3.3 同理对第二行数据做样例复制。


3.4 可以看到样例复制处显示样例复制的编号,再点击测试,可以看到输出信息已经有多行数据。


注:同一表格也可能会有不同的结构,从而造成漏抓或者抓错,这也是表格型数据的难点,可以通过调整整理箱定位偏好或自定义Xpath。具体可参见定位标志映射

四、采集翻页后的表格数据——翻页采集
4.1 点击爬虫路线跳转到爬虫路线工作台,新建一条线索,选择记号线索,并勾取连贯抓取。
4.2 点击浏览器中的翻页标志——下一页,
将翻页标志对应的text节点做线索记号映射:右击-线索映射-记号线索。
4.3 将翻页区域对应的div节点做线索定位映射:
右击-线索映射-定位-线索1。


五、存规则,采集数据
5.1 点击存规则,弹出提示框保存成功。
5.2 点击爬数据,启动打数机开始抓取数据。



5.3 数据以XML格式默认存放在C盘用户文件夹的DataScraperWorks中,可在DS打数机点击文件-存储路径,修改采集结果文件的存储位置。
7

鲜花

握手
1

雷人

路过

鸡蛋

刚表态过的朋友 (8 人)

相关阅读

最新评论

GMT+8, 2024-3-28 21:06