用集搜客实现自动下载批量文件

2015-11-19 16:47| 发布者: ym| 查看: 27922| 评论: 5

摘要: 功能描述 1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。 2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。 自动下载文件步骤 1、配置火狐浏览 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《用网络爬虫软件自动下载网页上的文件


请注意从V9.0.0开始,文件下载功能做了大幅度改进,虽然这篇教程讲解的方法依然有效,但是这个方法很难理解,应该使用V9.0.0版本的新方法,下载文件不需要定义第二个规则,只需要在第一个规则中勾上“下载内容”,并选择下载文件类型即可。也不再需要火狐浏览器插件版解决特定场景问题了。具体参看教程《用网络爬虫软件自动下载网页上的文件

1,下载功能描述

1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。

2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。

2,配置文件的存储路径和处理方式

      如果不配置,下载完一个文件以后,总是会询问怎样处理。这种询问将阻断爬虫的继续运行。为了关闭询问,需要做相应的配置。 

2.1,集搜客浏览器

      集搜客浏览器有自己的配置,如下图

点击图示的配置按钮,进入到如下窗口中

在Mime页签下,有多种文件类型的设置按钮,点击他们就能设置成不提示文件处理方法。

2.2,火狐插件版爬虫

1)配置火狐浏览器的下载功能。火狐浏览器:工具菜单=>选项=>常规=>下载,选择“保存文件至指定文件夹”



2)配置火狐浏览器处理特定文件类型的方式。火狐浏览器:选项=>应用程序,把要下载的文件类型的“动作”改成“保存文件”。比如要下载的是pdf文件,就修改pdf文件类型的动作。


3,定义爬虫规则并运行

本案例假定需要两级规则(关于层级采集参看《采集网址做层级采集》):

第一级:采集文档列表和下载链接,假定主题名是 pdfpage999

第二级:利用下载链接下载pdf文件,假定主题名是pdf_download999

下面将讲解两级规则的定义方法。

3.1,采集文档列表和下载链接

在集搜客浏览器上加载文档列表页面,进入定义规则模式,定义一个规则用来抓文件链接的规则,规则名叫“pdfpage999”。基本的定义规则方法不再赘述,可参看《采集网页数据》,下面重点讲解跟下载文件相关的设置

1)把抓文件链接的字段勾选“下级线索” 

2)在“爬虫路线里”目标主题里填写前面定义的自动下载规则名“pdf_download999” 

从上面步骤可见,跟普通的层级抓取并无二致。区别在于第二级规则的定义。

3.2,定义执行下载操作的规则

新建一个专门用于自动下载的规则,规则名叫“pdf_download999”,规则内容可以是抓取任意一个简单网页上的一个字段,保存这个规则。

这一步可能不好理解。这是第二级规则,在这一级只是下载一个pdf文件,而没有特别的网页内容。所以,也找不到合适的样本页面用来做规则,所以要随便找个页面,但是总是要定义一个抓取内容,为了不影响到规则的运行,要用一个每个页面都有的内容作为抓取内容。这样在运行规则的时候,才不会出现规则不适用的提示。

例如,可以选择抓取html的header节点,甚至html节点。这样的规则的通用性是极高的,目的只是确保抓取成功,不要遇到规则不适用问题。只要规则适应了,就自动会激发下载。

3.3,运行规则

就像普通的层级采集

1,运行规则pdfpage999, 会为pdf_download999生成线索

2,运行规则pdf_download999, 集搜客网络爬虫会自动下载线索网址对应的文件,在设定好的存储文件夹里就能看到下载的文件。


若有疑问可以集搜客网络爬虫
3

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

相关阅读

发表评论

最新评论

评论 wangyong 2016-11-29 10:25
有正事的小青年: 附件的名字是不是也会保存在xml里?再由xml转换成的excel中也能体现出这个附件的名字?要不然怎么知道附件是哪篇文章里的呢。 ...
把附件的名字抓做上抓取内容抓下来
评论 有正事的小青年 2016-11-29 10:12
附件的名字是不是也会保存在xml里?再由xml转换成的excel中也能体现出这个附件的名字?要不然怎么知道附件是哪篇文章里的呢。
评论 wangyong 2016-7-27 17:08
Luodan: 请问下如果是批量下载excle文档应该如何设置呢?
下EXCEL和PDF理论上都一样,先做规则然后再火狐里设置EXCEL为自动下载模式
评论 HJLing 2016-7-27 17:05
Luodan: 请问下如果是批量下载excle文档应该如何设置呢?
excel有独立的链接吗 如果有的话 也是同样设置 只是这里设置的是pdf默认为下载 你设置excel默认下载就可以了
评论 Luodan 2016-7-27 15:39
请问下如果是批量下载excle文档应该如何设置呢?

查看全部评论(5)

GMT+8, 2024-12-5 04:47