GooSeeker 产品资源教程视频教程使用交流资讯

开启辅助访问切换风格

快捷导航

集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

定义爬虫规则采集网页数据

2020-11-26 16:42| 发布者: Fuller| 查看: 25364| 评论: 0

摘要: 为了让网络爬虫将网页上的指定内容采集下来，需要定义一个模板，这个模板只要指定的内容，而过滤掉其他内容；而且一个模板可以用于其他所有相同结构的网页。定义这个模板的过程就叫定义网络爬虫规则 ...

配套软件版本：V10及更高数据管家——增强版网络爬虫

老版本对应教程：V9及更低集搜客网络爬虫的对应教程是《采集网页数据》

下载安装了数据管家后，我们在数据管家的浏览器打开待采集页面，在页面上点点鼠标，把要采集的内容标注出来。这个过程称为：用直观标注的方法定义爬虫规则。本篇中，任务和规则都是指爬虫规则。

注意：本文讲解的直观标注适合采集网页上看得见的内容。如果要采集的内容没有直接显示在网页上，比如超链接的网址，或者用直观标注不能精确标注，可以用《内容映射》讲解的方法。

1. 操作步骤（观看视频）

下面用京东网站作为案例，给大家演示如何使用直观标注的方法定义采集规则，操作步骤如下：

2. 操作步骤详解

采集规则：京东数据管家列表演示规则（可点击下载本规则）

样本网址：https://search.jd.com/Search?keyword=%E5%86%B0%E7%AE%B1&enc=utf-8&wq=%E5%86%B0%E7%AE%B1&pvid=2879721c10d54340a16491de943d6886

采集内容：网页上第一个商品的商品标题、价格、评论数、店铺名称

第一步：打开网页

1.1，加载网页，看到要采集的内容

打开数据管家，输入待采集网址并回车，加载出网页后，先观察一下要采集的内容是否加载全了，有些网页很长，如果要采集网页下端的内容，一定要拉动网页侧边的滚动条，让网页充分加载，再创建采集任务。

1.2 ，创建采集任务

点击左边栏顶部的“+”按钮，看到左栏工作台显示了出来，输入任务名。

每个任务必须有一个唯一的任务名，如果新起的名字跟别人的重名了，在界面上会用红字提示出来，必须改名，直到被接受为止。如果使用很常见的名字，重名概率很大，建议在名字后面缀上自己的集搜客账号名。

第二步：标注需要采集的信息

2.1，在网页上做标注

比如，我们要采集网页上第一个商品的标题，用鼠标点击标题，会看到标题文字被一个细线蓝框包围。

双击商品标题，弹出小窗，要求给这个采集内容输入一个字段名，对应excel中的字段，这里，我们输入的字段名是商品标题。

如果这是创建的第一个采集内容，还会要求输入表名，对应采集输出的excel表，表名自定。在爬虫软件中，我们通常称这个表为“整理箱”，形象地表示我们正在将网页内容整理到一个箱子中。

通过这个标注过程，网页内容就与爬虫将来要输出的excel表格建立了映射关系。后面的教程还会多次提到“映射”这个词，网页内容采集就是把网页上的内容映射到excel表格的过程。

2.2，标注更多内容

重复上一步操作来标注价格、评论数和店铺名称。

第三步：保存规则，采数据

3.1，测试采集是否符合预期

点击“测试”按钮，检查信息完整性。很有可能采集到的内容是空的，或者是包含了很多不需要的内容，或者错位了，采集到了相邻的内容。那么就需要重新调整映射关系，如果直观标注不精确，可以去下面的DOM窗口做内容映射。

3.2，点击“保存”

只有保存了规则，爬虫才能执行规则，采集数据。未来还可以修改规则。

3.3，点击“采数据”

点击保存按钮旁边的“采数据”按钮，爬虫会打开一个新窗口开始采集数据，测试采集规则是否有效。除了通过“采数据”按钮来启动采集任务之外，还有其他运行方式，详见后面的启动数据采集教程。

第四步：查看数据

4.1，启动导出过程

参看上图，采集完成后，会显示任务状态页面，点击“导出Excel”按钮，会出现一个提示框，点击确定即可。

4.2，下载导出的数据

点击导出数据，点击下载，默认保存到电脑的下载文件夹。

下载下来的是一个ZIP包，放在电脑的“下载”文件夹。可以点击它，自解压成一个excel文件。

提示：这篇教程只采集了第一个商品的数据，要采集这个页面上所有商品的数据，请阅读下篇文章《网络爬虫采集列表数据》中的第三步，做样例复制，采集列表数据。

上篇文章：《集搜客网络爬虫的核心名词》下篇文章：《采集列表数据》

刚表态过的朋友 (15 人)

上一篇：网络爬虫采集列表数据下一篇：网络爬虫软件翻页采集列表数据

最新评论

相关分类

下级分类

热门排行

旧版: 网站; 社区

支持: 常见问题; 视频教程; 速查手册; 指导书

关于: 公司简介; 联系方式; 友情链接

关注: 新浪微博; 官方微信

4008-770-662
仅收市话费，周一至周日9:00-18:00
24小时在线客服

GMT+8, 2026-7-9 09:09