快捷导航

集搜客网络爬虫的核心名词

2020-11-25 18:51| 发布者: Fuller| 查看: 1760| 评论: 0

摘要: 集搜客网络爬虫软件的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很自由,不讲究顺序。

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《集搜客网络爬虫的核心名词


集搜客网络爬虫的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们爬下来。标记过程很自由,不讲究顺序。

1.  直观标注

用爬虫软件的浏览器加载网页,在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。把所有要采集的内容逐个这样标注。不分先后顺序。


后,爬软件把标注的内容采集下来,放在一个excel表格里,类似下表。标签名就是excel表格的表头字段(注意,这只是采集了一个公司网页,实际采集中,爬虫要采集很多类似的公司网页,数据会有很多行)。

2. 任务

在一个网页做完了标注,并按爬虫软件的提示,保存下来,我们就建立了一个爬虫任务(采集任务)。以后可以运行这个任务爬数据,还可以编辑修改这个任务。

3. 整理箱

在一个爬虫任务里,被标注的内容放在一个整理箱里,整理箱对应爬虫输出的excel表格。下图红框里是一个整理箱,显示在爬虫界面左边的一个工作台上。为什么要引入整理箱这个概念?因为我们往往会对一批标注内容做一些操作,有了整理箱的概念,比较方便。而且,整理箱也凸显了集搜客爬虫的操作特点:在网页上用鼠标点一点,就把要抓取的内容放到一个箱子里。

4. 映射

“映射”这个词经常出现,表示:“把网页上的内容与整理箱中的标签建立联系”(也就是网页上的内容与excel表格的字段建立关系)。标注过程就是建立映射关系,有了这个关系,网络爬虫就知道从哪里采集数据并存储到哪里。


开始阅读《从入门到精通

1

鲜花

握手

雷人

路过
2

鸡蛋

刚表态过的朋友 (3 人)

最新评论

GMT+8, 2021-4-17 06:57