通过箱线图看一线城市行业的招聘分布

2018-4-26 19:28| 发布者: Fuller| 查看: 7099| 评论: 0

摘要: GooSeeker研发团队开发的城市要素库分析系统中最大的数据集是招聘和房产房源,是一个重要的营商环境分析数据源。本文利用箱线图对数据进行可视化展示,期望能做更直观和更概括的观察,比较城市之间的整体差异。 ... ...

GooSeeker研发团队开发的城市要素库分析系统中最大的数据集是招聘和房产房源,是一个重要的营商环境分析数据源。在《城市要素库的人才招聘分析系统的指数算法》一文讲解了一种指数算法,建立了量化分析的基础,那篇文章也介绍了一个排行榜,观察各城市在各种行业上的排行。然而,无法整体观察一个城市的人才招聘需求的概貌。本文利用箱线图对数据进行可视化展示,期望能做更直观和更概括的观察,比较城市之间的整体差异。当然,这种分析方法是否合适,大家可以讨论。

最近整理了北京、上海、深圳这三座城市的各个行业所发布的招聘数据,下面我们将一步步介绍计算工程,可以作为数据分析的学习和研讨的参考材料。首先会介绍箱线图的制作方法以及如何用箱线图进行分析,然后再将这三座城市各行业的招聘指数制作成箱线图,目的是为了利用箱线图概括性地对比分析城市间的行业差异以及找出各城市存在哪些较强的行业等信息。


1、什么是箱线图

箱线图又称为盒须图、盒式图或箱形图,是一种用作显示一组数据分散情况的统计图,利用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来描述数据,可以反映出数据是否具有有对称性,数据的分散程度等信息,特别可以用于对几个样本数据的比较,在一批数据中,找出哪些数据点出类拔萃,哪些数据点表现不及一般,这些数据点放在同类其它群体中处于什么位置,都可以通过比较各箱线图的各个统计值看出。

2、怎样计算四分位数

2.1、首先要明白什么是分位数,分位数就是将总体的全部数据按从小到大的顺序排列后,处于各等分位置的变量值,中位数是将全部数据分成相等的两部分,那么四分位数就是把全部数据分为四部份,每部分包括25%的数据,处在各分位点的数值就是四分位数。

2.2、四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。

  • 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
  • 第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
  • 第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
  • 第三四分位数与第一四分位数的差距又称四分位距,用IQR表示。

计算四分位数首先要确定Q1、Q2、Q3的位置,计算四分位数位置的公式:

        Q1的位置= (n+1) × 0.25

        Q2的位置= (n+1) × 0.5

        Q3的位置= (n+1) × 0.75

        n表示数据总长度。

a) 、如果计算出的位置是整数,那么处于计算出来的位置的数字就是四分位数。

例如  一组经过排序的数据为“5、7、15、35、39、40、41、42、45、47、48”,计算结果如下:

        Q1的位置=(11+1)*0.25=3,那么第一分位数就是数据从小到大排序后位置为3的数字,该位置的数字是15,则Q1=15。

        Q2的位置=(11+1)*0.5=6,同理中位数就是位置为6的数字,该位置的数字是40,则Q2=40。

        Q3的位置=(11+1)*0.75=9,位置为9的数字是45,则Q3=45。

b) 、如果计算出的位置不是整数,就需要用到插数法去计数四分位数的值。

例如  一组经过排序的数据为"12,15,17,19,20,23,25,28,30,33,34,35, 36, 37",则三个四分位数的位置分别为:

        Q1所在的位置=(14+1)*0.25=3.75

        Q2所在的位置=(14+1)*0.5=7.5

        Q3所在的位置=(14+1)*0.75=11.25

那么量中的第3.75项、第7.5项和第11.25项分别为下四分位数、中位数和上四分位数,即:

        Q1 =(1-0.75)×第三项+(1-0.25)×第四项=0.25×17+0.75×19=18.5

        Q2 = 0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5

        Q3 =(1-0.25)×第十一项+(1-0.75)×第十二项=0.75×34+0.25×35=34.25

可以简单理解为较小的数乘以(1-位置中的小数)加上较大的数乘以(位置中的小数)。


上面是人工算法,如果数据大的话会很麻烦,在Excel中有quatify()函数是用来计算四分位数的,可以利用该函数直接计算出四分位数,下面介绍一下用法:

        语法:=quartile(array,quart)

        array :为需要求得四分位数值的数组或数字型单元格区域

        quart:决定返回哪一个四分位值

        quart 取 0 ,就返回数组里的最小值

        quart 取 1 ,就返回数组里的第一个四分位数(第 25 个百分点值)

        quart 取 2, 就返回数组里的中位数(第 50 个百分点值)

        quart 取 3, 就返回数组里的第三个四分位数(第 75 个百分点值)

        quart 取 4 ,就返回数组里的最大值

说明:

        如果数组为空,就会返回错误值 #NUM!

        如果 quart 不为整数,将被截尾取整

        如果 quart < 0 或 quart > 4,就会返回错误值 #NUM!

3、怎样用Excel制作箱线图

Excel2016版自带箱线图功能,2016版以下的Excel是没有箱线图功能的,需要升级到2016版。

制作箱线图的步骤也非常简单,只需要选中准备好的数据,再依次点击插入-查看所有图表-箱线图进行插入,插入后就会自动生成相应的箱线图表,完全不用自己去计算四分位数,非常方便

上图是从城市要素库((这里要超链接:http://www.gooseeker.com/land/city.html))的人才招聘分析系统中导出的北京、深圳、上海这三座城市的所有行业招聘指数数据,行业的分类一共有53个,由于行业的分类太多,所以数据图没有截全。一个城市的每个行业都有一个数值,我们想看看整个城市的行业排行值的分布情况。

利用2016版Exce将上图数据制作成箱线图,步骤如下图:首先选中数据区域B2:D54,然后点击工具栏的插入,选中查看所有图表,再选择箱形图,点击确定即可。

箱线图制作步骤图如下

制作出的箱线图效果如下图:

4、箱线图怎么分析

箱线图是用来观察数据整体的分布情况,可以通过以下几个点来进行分析数据:

1.    箱体包含了大部分的正常数据,而异常数据会在箱体上边界和下边界之外,以实心点标出,可以通过观察边界外是否有实心点来判断是否存在异常值
根据实际情况来处理异常值,分三种情况:

(a)异常值可能是一个被错误记录的数据值,如果是这样,就可以在进一步分析之前把它修正。

(b)异常值也可能是一个被错误包含在数据集总的值,如果是这样,则可以把它删除。

(c)异常值也可能是一个反常的数据值,它被正确记录并且属于数据集,这种情况下,它应该被保留。

2.    根据中位线判断数据的偏态强弱,中位数越偏离上下四分位数的中心位置,则代表分布偏态性越强。中位数将全部数据分成上下两侧各50%,当中位数靠上的话,说明大多数的数据分布在X轴靠右的位置上,曲线尾部向左侧延伸,所以这时是左偏;同理,如果中位数靠下的话,说明大多数的数据分布在X轴靠左的位置上,这时曲线尾部向右侧延伸,所以是右偏。

3.    看箱体的宽度判断数据的离散程度,四分位数和中位数把数据分为相等的四等分,如果箱体宽度越窄,则表明    数据集中在25%到75%之间,反之则表明数据越离散。

根据以上几个点来分析一下上面制作出来的箱线图

1、从箱体的宽度来看,上海整体的行业招聘指数最为集中,相对北京和深圳来说上海的招聘需求最平稳,侧面说明上海大部分行业发展都比较成熟,而深圳的行业招聘指数最为离散,相对来说深圳各行业水平层次不齐。

2、从中位数的位置看,深圳和上海的中位线在箱体中的位置都靠上,而北京的中位线在箱体中的位置靠下方,说明深圳和上海大部分行业的招聘需求相对北京来说的是偏大的;而深圳的中位线的位置相对其他两座城市的中位线来说位置最高,说明深圳的大部分行业招聘需求都要比北京和上海的大。

3、从异常值的点来看

  • 北京的三个异常值点对应的行业分别是:3197(政府/非盈利机构),3095(航天/航空),1974(信托/拍卖);
  • 深圳的一个异常值点对应的行业是:2681(电子技术/半导体/集成电路);
  • 上海的三个异常值点对应的行业分别是:2333(租赁服务),1437(仪器仪表/工业自动化),1352(信托/拍卖)。

表明北京的政府类行业发展最好,深圳在电子技术类行业的需求最大,而上海则偏向租赁服务类行业


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-4-20 04:01