快捷导航

用Excel合并集搜客网络爬虫采集到的多张表

2019-4-2 09:00| 发布者: Fuller| 查看: 7592| 评论: 0

摘要: 怎样用Excel的VLOOKUP公式合并两张表。很多情况下我们需要的数据往往在不同页面上,用集搜客GooSeeker网络爬虫把需要的数据采集下来后,会有多个excel表格,而我们需要的是把字段合并到一个excel表格中,这个工作使 ...

1,本文要点

阅读本文将学到的技能:怎样用Excel的VLOOKUP公式合并两张表

2,应用场景介绍

很多情况下我们需要的数据往往在不同页面上,用集搜客GooSeeker网络爬虫把需要的数据采集下来后,会有多个excel表格。为了便于数据分析,我们需要把相关的excel表合并成一个表。这个工作可以用Excel的VLOOKUP函数实现。

下面以集搜客微博工具箱的采集结果为例进行讲解。集搜客的微博评论工具可以把某条博文的评论采集下来,得到一个excel表格,字段包括:评论内容,发评论的博主主页链接,发评博主ID等等。我们可以把这些发评论的博主链接添加到博主详细资料工具,采集到这些博主更详细的信息,比如博主年龄,职业,简介等等。现在我们就有两张表,一个是博文评论的表,一个发评的博主详细资料的表。怎样把这两个表合成一张表呢?

3,寻找关联字段,用Excel做合并

上图是微博评论工具的采集结果


上图是微博博主详细资料的采集结果

可点击放大上两图做对比,图1的博主主页链接字段是和图2的fullpath字段一一对应,并且该字段信息具有唯一性,即两者是一 一对应的关系,所以我们可以根据这两个字段来合并两个Excel表。

3.1,把要合并的内容拷贝到同一个文件中的不同表中

为了简化操作,我们先把上面两张表的内容拷贝到同一个Excel文件中,分别放在微博评论和博主详细资料两个不同页签中。

3.2,使用VLOOKUP进行合并


我们要将‘博主详细资料’表中的<简介 >列合并到‘微博评论’表中,则要在‘微博评论’表的I2单元格输入函数 =VLOOKUP(D2,博主详细资料!A:Q,4,FALSE),表示要在‘博主详细资料’表中的A:Q区域内的第1列(A列)查找出与‘微博评论’表的D2单元格相对应的那一行,然后把第4列(D列)的数据值返回给‘微博评论’表的I2单元格。(注:I2单元格指的是I列第2行的单元格)

对这个函数回车后,可以看到‘博主详细资料’表中相应的简介内容已经合并到了‘微博评论’表中的I2单元格。选中I2,下拉它的右下角。就可以逐行把<简介>列的内容匹配过来。


要把“博主详细资料”表中的其它字段,比如所在地,生日等字段合并到“微博评论”表中,对每个字段使用VLOOKUP函数即可。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-3-19 15:12