用网络爬虫软件自动下载网页上的文件

2021-1-28 16:19| 发布者: Fuller| 查看: 14878| 评论: 2

摘要: 我们以这个网页为例http://www.neeq.com.cn/disclosure/announcement.html,讲解怎样自动下载网页上的文件。如果是人工下载这些文件,需要在网页上逐个点击文件图标,启动下载。而集搜客网络爬虫会自动采集文件的链 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《用网络爬虫软件自动下载网页上的文件


我们以这个网页为例http://www.neeq.com.cn/disclosure/announcement.html,讲解怎样自动下载网页上的文件。

如果是人工下载这些文件,需要在网页上逐个点击文件图标,启动下载。

而集搜客网络爬虫会自动采集文件的链接,同时下载文件。

本篇教程中,我们详细讲解怎样设置下载第一行的PDF文件,后面各行的PDF文件,做一个样例复制就可以了。

1. 步骤详解

案例任务:自动下载文件-教程(点击可下载) 

样本网址:http://www.neeq.com.cn/disclosure/announcement.html

采集内容:代码、简称、标题、日期,下载文件。

1.1 打开网页

1.2 标注第一行要采集的内容

在第一行,除了要下载文件,我们还要采集代码,简称,标题,日期,需要对这些信息进行标注。详细的标注操作可以参考《采集网页数据

第一次标注,要输入表名,自定义。


继续标注其它的信息,标注完成后,工作台上有了四个字段:代码,简称,标题,日期。


1.3 设置文件下载

点击第一行的文件图标,对应到DOM窗口的IMG节点,看看这个节点左侧的属性,没发现文件的链接,继续沿着这个节点向上找到A节点,点击A节点,我们发现A节点的@href属性,有文件的链接。




鼠标右键@href,做一个内容映射,文件的链接映射给一个新建内容,我们把这个新建内容命名为“文件链接”(命名是任意的),并勾选“补全网址”,“下载文件”。



现在,工作台上新添加了一个字段:文件链接

2.  样例复制

按上面的步骤,我们已经把第一行的内容和文件下载设置好了,如果还要采集后面各行,做个样例复制。具体的操作见《采集列表数据》。第一行是第一个样例,第二行是第二个样例。


3. 翻页设置

如果还要自动翻页批量采集多页的数据,可以设置翻页。具体的操作见《翻页采集数据》。


4. 测试,保存,启动采集

点击测试,看看要采集的信息,都采集下来吗,没有问题,点击保存。

然后点击采数据,启动采集。(下图非本例采集任务的图,但是操作类似)。


5. 采集到的文件保存在哪里

如果在爬虫软件里设置了分任务存放,


那么下载的文件保存在DataScraperWorks目录下的任务名文件夹下,在这个具体的例子中,是DataScraperWorks/下载文件-教程/PageContentDir。


打开PageContentDir,下载的文件存放在这里。


如果没有设置按任务保存,那么直接保存在DataScraperWorks下的PageContentDir目录下。

上篇文章:采集下载指定网页区域内的所有图片          下篇文章:《用网络爬虫软件自动下载网页上的文件

1

鲜花

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (2 人)

发表评论

最新评论

评论 Fuller 2021-4-24 12:03
18621566712: 遇到 java的 没有href的下载,怎办
看高级教程,做一个点击动作,点击可以激发下载
评论 18621566712 2021-4-24 11:06
遇到 java的 没有href的下载,怎办

查看全部评论(2)

GMT+8, 2024-12-4 21:28