快捷导航

网络爬虫软件翻页采集列表数据

2020-11-27 10:35| 发布者: Fuller| 查看: 464| 评论: 0

摘要: 翻页方法有很多种,本教程只讲解点击“下一页”按钮执行的翻页,点击页码1,2,3执行的翻页会在另外的教程讲解。在这篇教程中,会提到两个名词,翻页区和下一页标志,在讲解操作步骤的段落里会进行解释,请注意理解 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《翻页采集列表数据


翻页方法有很多种,本教程只讲解点击“下一页”按钮执行的翻页,点击页码1,2,3执行的翻页会在另外的教程讲解。在这篇教程中,会提到两个名词,翻页区和下一页标志,是设置翻页的关键点,请注意理解。


1.  操作步骤

京东的列表网页有很多页,爬虫软件能不能自动翻页,采集每一页的数据?当然可以,在任务里设置好翻页,爬虫软件就能自动翻页采数据。下面以京东列表页作为案例,操作步骤下:


2. 操作步骤详解

采集规则:京东商品列表采集new(可点击下载爬虫规则

样本网址:https://search.jd.com/Search?keyword=%E7%89%9B%E4%BB%94%E8%A3%A4&enc=utf-8&wq=%E7%89%9B%E4%BB%94ku&pvid=8b028fa5b6a841aa8bc3b6e2af1ed822

采集内容:商品名称、价格、评论数、商品详情页链接等内容,并自动翻页采集。

本案例是在上一篇文章《网络爬虫采集列表数据》的基础上,直接增加翻页设置,所以,前三步操作就不重复讲了,下面就直接讲第四步操作。

第四步:设置翻页

包括两个步骤:1. 设置翻页区;2. 设置下一页标志。

所谓翻页区,就是网页上的一条区域,这一条区域含有所有分页的页码,还有“下一页”按钮。为什么还要设置翻页区,而不仅仅设置“下一页”这种翻页标志?因为设置翻页区可以在网页上划定一个范围,爬虫在这个范围里面去找“下一页”标志,会更加精准。

4.1,进入翻页配置

点击左边工作台上的 “3 设置路线”,然后点击新建。


4.2,设置翻页区

如下图,在页面上选中翻页区,所谓翻页区,就是包含有所有分页的页码和下一页按钮的一个区域。这个区域对应于DOM上的一个节点。


在DOM区,用鼠标右键这个翻页区对应的节点,出现选择菜单:翻页映射->翻页区->路线1 。表示把这个节点作为翻页区映射给了刚才新建的爬虫路线1。如下图。翻页区就映射好了。

4.3,设置翻页标志

在当前网页,点击翻页按钮“下一页”。在下面的DOM区,光标自动定位到了一个节点,点击该节点,在左边查看页面元素窗口,找到#text,并且#text的值是“下一页”。鼠标右击这个#text,选择:翻页映射→下一页标志。这样下一页标志也设置好了。

tips:在这里提到了左边的查看网页元素小窗口,这里显示DOM元素节点的详细内容,包含元素节点的id和class属性,以及文本内容。请注意,元素的属性是以@开头的,元素的文本内容是以#text表示的,而“文本内容”这个字段是将元素内部的所有文本串接在一起的内容。

第五步:存规则,抓数据

5.1,规则测试成功后,点击“保存”;本文不细讲了,详细参看《定义规则采集网页数据

5.2,点击“采数据”,会自动新打开一个采集窗口,可以指定采集几条网址,也可以指定翻页次数,然后就开始抓取数据。

5.3,采集完成后会显示一个状态界面,有导出数据按钮,点击会跳到数据管理界面上,在那里下载数据。


如果想看原始结果数据,原始数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》。

Tips: 在实际的列表网页中,翻页区和翻页标志有各种各样的情形,如果碰到非本教程中的“下一页”文本式翻页标志,比如箭头,只有数字页码等,可以参阅《点击数字翻页》,《翻页符号是箭头》。


上篇文章:《网络爬虫采集列表数据》                          下篇文章:《打包下载Excel格式的采集结果数据



鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2021-1-24 16:54