快捷导航

资讯

采集图片网址并下载图片(二)——下载途牛多图
采集图片网址并下载图片(二)——下载途牛多图
上篇教程讲了怎么下载途牛网上的一个大图,在此基础上,本篇教程讲怎么下载大图下面的整齐排列的小图。按前面单图下载的教程,设置采集第一个小图,然后对这些小图做样例复制,就可以把小图都采集下来。所以本篇教程 ...

2021-1-25 15:49

采集图片网址并下载图片(一)—— 单图下载
采集图片网址并下载图片(一)—— 单图下载
集搜客爬虫不仅能抓到网页上的文本、链接,还可以批量下载图片。无论是列表页还是详情页上的图片,只要能获取图片网址。都可以用集搜客爬虫来下载图片。本篇教程以途牛网的自助游网页为案例,介绍一下如何用集搜客来 ...

2020-12-31 18:05

定位映射采集列表数据——以B站视频列表为例
定位映射采集列表数据——以B站视频列表为例
前面有教程讲了怎样用样例复制来采集列表数据,除了用样例复制,还可以用定位映射来采集列表数据。 下面以B站视频搜索列表作为案例来讲解,操作步骤如下:1.操作步骤2.操作步骤详解• 采集规则:B站视频搜索列表_教 ...

2020-12-19 11:59

网络爬虫抓包功能
网络爬虫抓包功能
集搜客网络爬虫易于操作的一个关键特色是:直观标注,在网页上点选内容,就能生成爬虫规则。其实还有更加高效的采集方法:有些网页采用了手机网站的实现模式,采用抓包功能 ...

2020-12-17 10:39

内容映射
内容映射
做采集规则的时候,直观标注很方便。在网页上点一下鼠标,就把要爬取的内容标记好了,爬虫运行的时候,自动去采集这些内容。但是有些内容(比如网页上的超链接),并没有直接显示在网页上,或者有些内容即使显示了, ...

2020-12-15 19:04

爬虫任务的加载、修改和另存
爬虫任务的加载、修改和另存
做好一个任务后,如果想要修改,怎么办?首先,要找到这个任务。在任务管理页面找。1. 进入任务管理页面2. 找到任务选中任务名,本例中,要对JD-牛仔裤男这个任务进行修改。任务比较多的时候,可以用任务名里的几个 ...

2020-12-3 11:45

用爬虫群采集数据
用爬虫群采集数据
1. 进入任务管理页面2. 选中任务。设置调度设置好调度参数,确认。自动弹出并发的爬虫群窗口,采集数据。本例中的任务名:JD-牛仔裤男。3. 调度参数说明并发爬虫窗口:这是爬虫群模式的特色。用几个爬虫窗口去并行采 ...

2020-12-2 19:30

启动数据采集
启动数据采集
做好采集规则,并且保存后,怎么启动采集?目前有三种放式。方式一、点击保存后,页面自动弹出操作指引,按指引去任务管理页面,启动采集。1. 点击数据管家侧边栏的任务管理按钮2. 选中任务名,点击任务名后的菜单, ...

2020-12-2 16:55

定位映射提高网页采集精度——以B站视频采集为例
定位映射提高网页采集精度——以B站视频采集为例
这一章我们将讲解怎样通过映射定位标志,相当于在网页上精准地划定网页块范围,可以提高数据采集规则的精确度和适应性,降低网页变化带来的影响。下面用B站视频作为案例,详细讲解操作步骤。 ... ... ... ... ... .. ...

2020-12-1 16:35

如何管理网络爬虫的线索
如何管理网络爬虫的线索
线索和网址就是一回事,网页的网址其实就是爬虫要爬行的线索。做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行。例如,做了一个采集某个京东商品页面 ...

2020-12-1 12:09

网络爬虫生成的XML格式结果文件
网络爬虫生成的XML格式结果文件
在网络爬虫采集数据过程中,数据首先是以XML格式保存到你本地电脑的DataSraperWorks目录下,一页一个XML文件,在你导出excel文件时,这些XML文件自动打包上传。 ... ... ... ... ... ... ...

2020-11-30 15:39

打包下载excel格式的数据
打包下载excel格式的数据
集搜客数据管家(增强版网络爬虫软件)跟老版本不同,省掉了手工压缩成zip文件的操作,实现了一键打包入库。可以将采集得到的原始的xml文件转换成excel文件。如果想直接使用xml文件,跳到文末看关于xml文件的内容。 ...

2020-11-30 10:44

爬网址做层级采集——以京东商品爬虫为例
爬网址做层级采集——以京东商品爬虫为例
前面写过两篇教程,《采集列表数据》是采集京东商城的列表页,《采集网页数据》是采集京东商品详情页,很多人想把这两个串在一起,这样就能批量采集商品的数据了 ... ... ... ... ... ... ... ... ... ... ... ... . ...

2020-11-27 16:15

网络爬虫软件翻页采集列表数据
网络爬虫软件翻页采集列表数据
翻页方法有很多种,本教程只讲解点击“下一页”按钮执行的翻页,点击页码1,2,3执行的翻页会在另外的教程讲解。在这篇教程中,会提到两个名词,翻页区和下一页标志,在讲解操作步骤的段落里会进行解释,请注意理解 ...

2020-11-27 10:35

定义爬虫规则采集网页数据
定义爬虫规则采集网页数据
为了让网络爬虫将网页上的指定内容采集下来,需要定义一个模板,这个模板只要指定的内容,而过滤掉其他内容;而且一个模板可以用于其他所有相同结构的网页。定义这个模板的过程就叫定义网络爬虫规则。 ... ... ... . ...

2020-11-26 16:42

GMT+8, 2021-1-27 15:39