采集图片网址并下载图片(一)—— 单图下载

2020-12-31 18:05| 发布者: Fuller| 查看: 9758| 评论: 3

摘要: 集搜客爬虫不仅能抓到网页上的文本、链接,还可以批量下载图片。无论是列表页还是详情页上的图片,只要能获取图片网址。都可以用集搜客爬虫来下载图片。本篇教程以途牛网的自助游网页为案例,介绍一下如何用集搜客来 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《采集图片网址并下载图片——以途牛旅游网为例


集搜客爬虫不仅能抓到网页上的文本、链接,还可以批量下载图片。无论是列表页还是详情页上的图片,只要能获取图片网址,都可以下载。

本篇教程以途牛网的自助游网页为案例,介绍如何用集搜客来自动下载一张图片。下一篇教程介绍如何下载大图下面整齐排列的小图。

除了下载图片,本篇教程还要在网页上采集两个信息:旅游项目和价格。

1. 操作步骤

案例任务:途牛旅游单图(点击可下载)   

样本网址:https://www.tuniu.com/package/210242230  

采集内容:旅游项目、价格、图片网址,下载图片。


2. 操作步骤详解

2.1 打开网页


2.2 标注信息

标记旅游项目和价格。双击要标注的信息,输入字段名。首次标注,还要输入表名。如果要详细了解标注操作,可以参考《采集网页数据》。


2.3 勾选下载图片

在网页上点击大图,下面的DOM窗口自动对应到IMG节点。在DOM窗口的左边,查看网页元素窗口,看到IMG的@src属性,它的值就是图片网址。

然后用鼠标右击@src,选择内容映射-新建内容,

给新建内容起个名字,本例中,起名”大图网址“。

并勾选下载图片。

而且,我们注意到@src中的图片网址没有http,属于不完全网址,要勾选补全网址,爬数据的时候,会自动补全。

采集图片网址和下载图片设置完成。

2.4 保存任务,采集数据

先测试一下任务,看看信息是否能采集到。

测试成功,保存任务,采集数据。

2.5 查看数据和图片

采集完成后,按采集窗口的提示,去下载数据

图片和数据是分开存放的。图片存放在哪里?

图片存放在电脑DataScraperWorks目录下的PageContentDir文件夹


上篇文章:《定位映射采集列表数据》                                     下篇文章:《采集图片网址并下载图片——多图


鲜花

握手

雷人

路过

鸡蛋
发表评论

最新评论

评论 Fuller 2021-4-28 17:29
发誓学好内容分析: 下载天气网上的江苏苏州的天气图总是超时,我发了一个贴:<a href="https://www.gooseeker.com/doc/thread-18534-1-1.html" target="_blank">https://www.gooseeker.com/doc/thread-18534-1-1.html</a> 。请楼主帮忙看看原因 ...
好的,我们在帖子中讨论
评论 发誓学好内容分析 2021-4-28 17:28
下载天气网上的江苏苏州的天气图总是超时,我发了一个贴:https://www.gooseeker.com/doc/thread-18534-1-1.html 。请楼主帮忙看看原因
评论 Fuller 2021-1-25 09:23
如果下载图片网速很慢,有可能会超时,要提高超时时长,参看:https://www.gooseeker.com/doc/thread-18337-1-1.html

查看全部评论(3)

GMT+8, 2024-12-10 10:23