LinkedIn 的简历显示了一个人声明的自己的职业发展历史,包括了在各个时间段内的职务。这些数据让我可以构建出某个职务的不断演变。 下图就展示了”数据工程师“这个职务的飞速发展: 【图表】累计数据工程师的数量(单位:千)
▲ 数据工程师的数量从 2013 年到 2015 年增长超过了一倍。而且基于上文中相关岗位需求的数据,该增长趋势并不会减慢。 相比之下,数据科学家的数量大约是数据工程师的两倍(大约 11,400 人),但是数据工程师的增长速度却要更高:在同一时期,数据科学家数量“仅”增长了 50%。
数据工程师的疯狂增长让人产生了一个疑问:这些人从哪里来?他们之前是什么职业? 我们通过观察数据,调查了数据工程师这一职业的 DNA —— 他们之前的职业。 在我们的调查前有以下几个猜测: 数据工程师是软件工程师和数据科学家之间的桥梁:他们编写了生产代码来方便数据科学家们进行大规模的运算实验。因此,我们猜测有很大一部分数据工程师的前身是软件工程师或数据科学家; 因为数据工程师很大部分的工作都围绕着运算的规模,他们同时也是软件工程师和运维开发 ( Devops ) 的桥梁。因此我们猜测一部分人由运维开发转来; 数据库管理员曾在一个企业中扮演类似的角色。因而,不难假设一部分数据库管理员投身到这一更加先进的职业中。 结果显示,我们的猜测部分是正确的,有一点是非常明确的:数据工程师的 DNA 和软件工程师最接近 。 【图表 :TOP 10 数据工程师的来源】
▲ 数据工程师前职调查,最多依次为软件工程师、分析师、咨询师、商业分析师、数据架构师、数据分析师、数据库管理员、数据科学家、实习生、研究助理等
50% 的数据工程师在美国。这并不奇怪,因为数据科学家这个称谓的本身和很多基础技术都是来自于美国的科技公司和大学。 【图表:数据科学家全球化】
▲ 大部分的数据科技或是来自于一小部分大学——特别是伯克利大学 AMP 实验室,或者是来自于全球最大的网络公司软件工程团队。 谷歌、脸书、领英和亚马逊在领先该产业其他对手很久,就已经开始挑战大数据,并投入了大量资源。他们不仅创造了很多的数据科技,他们成为了数据人才的培育基地。 然而,这张图有些误导。 美国至今有着最多的数据工程师,也同样在全球有着最多的数据工程师档案:接近4倍多于排名第二的印度。 为了标准化数据,我们图中排名前十的国家展开详细,看他们各自数据工程师人数与在领英(LinkedIn)档案数的对比,以及与总人口的对比。 【图表:TOP 10 数据工程师最多的国家】
▲ 这张统计中没有以色列,以色列是我们此前的参考标准,它曾经在每百万人中的数据科学家占比排名中排名最高。上文提及,以色列长期被认为是数据科学的起源国度,在以色列“硅溪”有着强劲科技展现。但意外的是,这却没能转化为高密度的数据工程师人才。 在扩大存储、传输和处理数据方面遇到挑战的公司对数据工程人才需求最甚。这些挑战多在科技公司出现,但是像电信、生物科技和保险这些行业呢?难道这些行业不需要数据扩张方面的帮助吗? 当我们考察数据工程师的工作领域时,我们发现一系列的行业都需要数据人才。 【图表:TOP 20 数据工程师的行业分布】
▲ 与预期一致,电信和金融服务接近顶端,但是在生物科技中 DNA 的拍字节(Petabytes)的排序却没有朝排名靠前的位置发展。 (责任编辑:本港台直播) |