资讯

用爬虫群采集数据
用爬虫群采集数据
1. 进入任务管理页面2. 选中任务。设置调度设置好调度参数,确认。自动弹出并发的爬虫群窗口,采集数据。本例中的任务名:JD-牛仔裤男。3. 调度参数说明并发爬虫窗口:这是爬虫群模式的特色。用几个爬虫窗口去并行采 ...

2020-12-2 19:30

启动数据采集
启动数据采集
做好采集规则,并且保存后,怎么启动采集?目前有三种放式。方式一、点击保存后,页面自动弹出操作指引,按指引去任务管理页面,启动采集。1. 点击数据管家侧边栏的任务管理按钮2. 选中任务名,点击任务名后的菜单, ...

2020-12-2 16:55

定位映射提高网页采集精度——以B站视频采集为例
定位映射提高网页采集精度——以B站视频采集为例
这一章我们将讲解怎样通过映射定位标志,相当于在网页上精准地划定网页块范围,可以提高数据采集规则的精确度和适应性,降低网页变化带来的影响。下面用B站视频作为案例,详细讲解操作步骤。 ... ... ... ... ... .. ...

2020-12-1 16:35

如何管理网络爬虫的线索
如何管理网络爬虫的线索
线索和网址就是一回事,网页的网址其实就是爬虫要爬行的线索。做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行。例如,做了一个采集某个京东商品页面 ...

2020-12-1 12:09

网络爬虫生成的XML格式结果文件
网络爬虫生成的XML格式结果文件
在网络爬虫采集数据过程中,数据首先是以XML格式保存到你本地电脑的DataSraperWorks目录下,一页一个XML文件,在你导出excel文件时,这些XML文件自动打包上传。 ... ... ... ... ... ... ...

2020-11-30 15:39

打包下载excel格式的数据
打包下载excel格式的数据
集搜客数据管家(增强版网络爬虫软件)跟老版本不同,省掉了手工压缩成zip文件的操作,实现了一键打包入库。可以将采集得到的原始的xml文件转换成excel文件。如果想直接使用xml文件,跳到文末看关于xml文件的内容。 ...

2020-11-30 10:44

爬网址做层级采集——以京东商品爬虫为例
爬网址做层级采集——以京东商品爬虫为例
前面写过两篇教程,《采集列表数据》是采集京东商城的列表页,《采集网页数据》是采集京东商品详情页,很多人想把这两个串在一起,这样就能批量采集商品的数据了 ... ... ... ... ... ... ... ... ... ... ... ... . ...

2020-11-27 16:15

网络爬虫软件翻页采集列表数据
网络爬虫软件翻页采集列表数据
翻页方法有很多种,本教程只讲解点击“下一页”按钮执行的翻页,点击页码1,2,3执行的翻页会在另外的教程讲解。在这篇教程中,会提到两个名词,翻页区和下一页标志,在讲解操作步骤的段落里会进行解释,请注意理解 ...

2020-11-27 10:35

定义爬虫规则采集网页数据
定义爬虫规则采集网页数据
为了让网络爬虫将网页上的指定内容采集下来,需要定义一个模板,这个模板只要指定的内容,而过滤掉其他内容;而且一个模板可以用于其他所有相同结构的网页。定义这个模板的过程就叫定义网络爬虫规则。 ... ... ... . ...

2020-11-26 16:42

网络爬虫采集列表数据
网络爬虫采集列表数据
网络爬虫软件采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,京东搜索列表中的每个商品也是一个样例。为了让网络爬虫知道所有商品的排放规律 ... . ...

2020-11-26 16:03

集搜客网络爬虫的核心名词
集搜客网络爬虫的核心名词
集搜客网络爬虫软件的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很自由,不讲究顺序。

2020-11-25 18:51

网络爬虫软件(增强版)的界面布局介绍
网络爬虫软件(增强版)的界面布局介绍
数据管家作为增强版的网络爬虫软件,把以往集搜客爬虫的任务定义界面的多个窗口集中在一个窗口中

2020-11-25 17:46

数据管家和集搜客网络爬虫超出配额是怎么回事?
数据管家和集搜客网络爬虫超出配额是怎么回事?
无论是运行集搜客网络爬虫软件,还是运行集搜客数据管家软件,都有配额限制,也就是同一个账号可以同时在多少台电脑上运行。不同的集搜客账号级别具有不同的配额:免费版:同一个账号只能在一台电脑上运行专业版:同 ...

2020-7-16 17:53

用GooSeeker数据管家能采集微博内容吗?
用GooSeeker数据管家能采集微博内容吗?
集搜客数据管家是GooSeeker发布的采用新内核的网络爬虫工具,数据管家不仅仅把集搜客网络爬虫软件移植到新内核上,而且整个操作体验更加简洁易用了。下面将讲解用数据管家采集微博的操作过程,请预先下载并安装好集 ...

2020-7-10 09:32

怎样使用GooSeeker数据管家启动采集任务?
怎样使用GooSeeker数据管家启动采集任务?
1,界面布局集搜客 数据管家软件 是一个数据采集和管理的综合入口,功能直达按钮位于左栏,分别是:1, 定义爬虫规则2, 任务管理3, 数据管理4, 分词和文本分析5, 网页和pdf摘录左边栏再往右就是工作台面板,工作 ...

2020-6-15 18:13

GMT+8, 2024-7-27 13:19