快捷导航

城市要素库的人才招聘分析系统的指数算法

2018-5-8 16:43| 发布者: xandy| 查看: 237| 评论: 0

摘要: GooSeeker研发团队开放城市要素库的目的是提供一个用于研究的数据源,比如,用于职居分析、营商环境分析,考察一个城市的经济、民生等特征和变迁。下面几篇文章记录了我们对数据做的一些运算和研究尝试。本文介绍一 ...

GooSeeker研发团队开放城市要素库的目的是提供一个用于研究的数据源,比如,用于职居分析、营商环境分析,考察一个城市的经济、民生等特征和变迁。下面几篇文章记录了我们对数据做的一些运算和研究尝试。

本文介绍一个人才招聘分析专题系统的开发思路和数据处理方法,这是一个简单的数据处理过程,基于互联网上公开的公司招聘信息做的分析系统,期望从招聘数据中有所发现,我们希望从招聘需求的角度来对下面几点进行探索。

  • 分析全国不同城市之间的人才/行业结构布局差异;
  • 观察全国总体的招聘需求情况,跟踪城市的招聘变化趋势;
  • 分析城市的行业结构变化,预测朝阳行业;

为了能直观地对城市、行业之间进行比较,我们设计了招聘指数作为衡量大小的标准。招聘指数就像股票指数那样,就是一个计算后的数值,在这里就是用来说明一个城市、一个行业的招聘需求大小。

然而必须面对一个问题:这些数据是从招聘网站的公开的公司招聘信息中采集出来的,比如,58同城、智联招聘、51job、拉勾网等,每个网站有自己的特点,就会分别有不同的行业聚集,很显然,58同城上的招聘与拉勾网上的招聘公司所处的行业就是泾渭分明的。那么,是否存在一个指数计算方法,能够滤除掉行业偏向?

我们采用的这个算法从一定程度上能够滤除这种偏向,在这里把这个算法列出来,希望多跟大家交流,如果有其他意见或者想法的,都可以给我们留言。

1、数据来源

招聘分析系统里的数据来源于互联网上各大招聘平台,收集和整理了全国各个城市发布了招聘需求的公司信息和招聘信息。

2、数据清洗

公司和招聘信息经过清洗整理后存入城市要素库系统,这是一个数据立方体引擎,具体介绍参看《城市要素库时空分析系统开发设计要点》,在这个系统中,按照城市和行业两个维度交叉查询得到查询结果数据,对数据做清洗处理,包括去重、过滤等等,这里就不细说了,下面我们将以{城市-行业}代表交叉查询得到的数据。

3、招聘指数计算

以{城市-行业}交叉查询得到的招聘信息,依次算出各个城市下各个行业的招聘信息总数,再以全国-行业为单位,算出全国各个行业的招聘信息总数量,然后就算出各个城市-行业的招聘指数,计算如下:

城市某行业的招聘总数 = 使用{城市-行业}交叉查询得到的招聘信息条数

全国某行业的招聘总数 = 所有“城市某行业的招聘总数”之和

城市某行业的招聘指数 =(城市某行业的招聘总数 / 全国某行业的招聘总数)*100000

补充一点,这里乘以100000,是为了把小数转换为整数,可以一眼看出大小。

4、做个排行榜

基于上一章定义的计算方法,为每个城市的每个行业计算招聘指数,用这个指数做个排行榜,就能看出在某个行业上各城市的招聘需求差异,可以把平均薪酬也列上,对照一下观察,期望有所发现。也可以选择城市级别,只看一线城市或二线、三线以下城市的排行榜,比较同级别城市的行业招聘需求大小。

5、展望

综合所有的网络招聘平台的行业分类,得到40多个行业,一个个行业拿出来看排行榜,其实难于解答文章开篇提出的问题,我们想得到城市的人才结构、产业群的概貌和演变,需要一种更加综合的观察。后续的篇章我们将陆续提出一下数据分析和可视化的方案,也希望各位读者能提出一些好建议。

6、城市要素库介绍和数据下载方法

城市要素库是一个数据共享平台,上面汇聚了房地产、招聘、生活娱乐、政府开放数据、城市部件、环境、气象等多个领域的数据集,这些数据持续更新,最难能可贵的是整理后的数据,可以直接用来做量化运算,这不仅仅是一个简单的数据下载平台,更重要的是一个数据探索平台,可以利用数据立方体的多维度搜索技术,发现数据特征,找到研究方向。



鲜花

握手

雷人

路过

鸡蛋

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-5-26 04:26