定义爬虫规则采集网页数据

2020-11-26 16:42| 发布者: Fuller| 查看: 20155| 评论: 0

摘要: 为了让网络爬虫将网页上的指定内容采集下来,需要定义一个模板,这个模板只要指定的内容,而过滤掉其他内容;而且一个模板可以用于其他所有相同结构的网页。定义这个模板的过程就叫定义网络爬虫规则。 ... ... ... . ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《采集网页数据


下载安装了数据管家后,我们在数据管家的浏览器打开待采集页面,在页面上点点鼠标,把要采集的内容标注出来。这个过程称为:用直观标注的方法定义爬虫规则。本篇中,任务和规则都是指爬虫规则。

注意:本文讲解的直观标注适合采集网页上看得见的内容。如果要采集的内容没有直接显示在网页上,比如超链接的网址,或者用直观标注不能精确标注,可以用《内容映射讲解的方法


1.  操作步骤(观看视频)

下面用京东网站作为案例,给大家演示如何使用直观标注的方法定义采集规则,操作步骤如下:



2. 操作步骤详解

采集规则:京东数据管家列表演示规则(可点击下载本规则

样本网址:https://search.jd.com/Search?keyword=%E5%86%B0%E7%AE%B1&enc=utf-8&wq=%E5%86%B0%E7%AE%B1&pvid=2879721c10d54340a16491de943d6886

采集内容:网页上第一个商品的商品标题、价格、评论数、店铺名称


第一步:打开网页

1.1, 加载网页,看到要采集的内容

打开数据管家,输入待采集网址并回车,加载出网页后,先观察一下要采集的内容是否加载全了,有些网页很长,如果要采集网页下端的内容,一定要拉动网页侧边的滚动条,让网页充分加载,再创建采集任务。

1.2 ,创建采集任务

点击左边栏顶部的“+”按钮,看到左栏工作台显示了出来,输入任务名。

每个任务必须有一个唯一的任务名,如果新起的名字跟别人的重名了,在界面上会用红字提示出来,必须改名,直到被接受为止。如果使用很常见的名字,重名概率很大,建议在名字后面缀上自己的集搜客账号名。



第二步:标注需要采集的信息

2.1,在网页上做标注

比如,我们要采集网页上第一个商品的标题,用鼠标点击标题,会看到标题文字被一个细线蓝框包围。

双击商品标题,弹出小窗,要求给这个采集内容输入一个字段名,对应excel中的字段,这里,我们输入的字段名是商品标题。

如果这是创建的第一个采集内容,还会要求输入表名,对应采集输出的excel表,表名自定。在爬虫软件中,我们通常称这个表为“整理箱”,形象地表示我们正在将网页内容整理到一个箱子中。

通过这个标注过程,网页内容就与爬虫将来要输出的excel表格建立了映射关系。后面的教程还会多次提到“映射”这个词,网页内容采集就是把网页上的内容映射到excel表格的过程。


2.2,标注更多内容

重复上一步操作来标注价格、评论数和店铺名称。


第三步:保存规则,采数据

3.1,测试采集是否符合预期

点击“测试”按钮,检查信息完整性。很有可能采集到的内容是空的,或者是包含了很多不需要的内容,或者错位了,采集到了相邻的内容。那么就需要重新调整映射关系,如果直观标注不精确,可以去下面的DOM窗口做内容映射


3.2,点击“保存”

只有保存了规则,爬虫才能执行规则,采集数据。未来还可以修改规则


3.3,点击“采数据”

点击保存按钮旁边的“采数据”按钮,爬虫会打开一个新窗口开始采集数据,测试采集规则是否有效。除了通过“采数据”按钮来启动采集任务之外,还有其他运行方式,详见后面的启动数据采集教程。


第四步:查看数据

4.1,启动导出过程

参看上图,采集完成后,会显示任务状态页面,点击“导出Excel”按钮,会出现一个提示框 ,点击确定即可。

4.2,下载导出的数据

点击导出数据,点击下载,默认保存到电脑的下载文件夹。


下载下来的是一个ZIP包,放在电脑的“下载”文件夹。可以点击它,自解压成一个excel文件。


提示:这篇教程只采集了第一个商品的数据,要采集这个页面上所有商品的数据,请阅读下篇文章《网络爬虫采集列表数据》 中的第三步,做样例复制,采集列表数据。


上篇文章:《集搜客网络爬虫的核心名词》                                                            下篇文章:《采集列表数据 



12

鲜花
1

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (14 人)

最新评论

GMT+8, 2024-10-13 08:27