表格型数据采集

2016-7-21 17:12| 发布者: HJLing| 查看: 18958| 评论: 0

摘要: 一些网页上的数据是以表格的形式呈现的，表格数据采集，和其他的网页数据采集的基本操作是一样的。具体的操作是，把第一行表格的数据作为样例，将其中想要要抓取的数据做内容映射，然后对第一行和第二行做样例复制 ...

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

观看视频教程

一些网页上的数据是以表格的形式呈现的，表格数据采集，和其他的网页数据采集的基本操作是一样的。
具体的操作是，把第一行表格的数据作为样例，将其中想要要抓取的数据做内容映射，然后对第一行和第二行做样例复制映射，这样就能够把整个表格的数据抓取下来。如果需要翻页，在爬虫路线中设置翻页就可以。
下面详细说明每一步的具体操作。

本教程的样本页面为http://data.eastmoney.com/notice/

一、加载页面，定义主题名
1.1 将需要采集数据的页面网址复制粘贴到MS谋数台的网址处，并点击enter回车键，等待页面加载。
1.2 待页面加载完成后（即MS谋数台下方的浏览器窗口显示页面信息，并且右上方的页面地址自动填上网址），在右上方的主题名处填写主题名，点击查重按钮检查主题名是否被占用，主题名被占用将无法保存规则。

二、完成抓取内容映射
2.1 点击右上方的创建规则调转到创建规则工作台
2.2 点击要采集的内容，这里点击代码，代码变成黄底，表示该信息被选中。
2.3 再点击一次，会弹出一个输入框，输入抓取内容名称。
2.4 输入第一个抓取内容时，会弹出创建整理箱的弹窗，输入整理箱名称后，点击确认。

2.5 对其他需要抓取的数据重复做2.2和2.3，

2.6 点击测试按钮，弹出提示框，勾选关键内容是为了给爬虫执行采集提供判断标志，对于页面一定会出现的内容可以勾上"关键内容"。这里给代码勾选关键内容。

2.7 再次点击测试，可以看到下方输出信息会显示采集内容。可以看到目前采集到的只是一个商品的信息，要把整个页面上结构相同的商品信息都采集下来，就需要做样例复制。

三、采集多行表格数据——样例复制
3.1 点击整理箱列表，勾选启用样例复制。
3.2 选择第一行数据的样例节点，右击-样例复制映射-第一个。

3.3 同理对第二行数据做样例复制。

3.4 可以看到样例复制处显示样例复制的编号，再点击测试，可以看到输出信息已经有多行数据。

注：同一表格也可能会有不同的结构，从而造成漏抓或者抓错，这也是表格型数据的难点，可以通过调整整理箱定位偏好或自定义Xpath。具体可参见定位标志映射。

四、采集翻页后的表格数据——翻页采集
4.1 点击爬虫路线跳转到爬虫路线工作台，新建一条线索，选择记号线索，并勾取连贯抓取。
4.2 点击浏览器中的翻页标志——下一页，将翻页标志对应的text节点做线索记号映射：右击-线索映射-记号线索。
4.3 将翻页区域对应的div节点做线索定位映射：右击-线索映射-定位-线索1。