从该表格中,我们不应该认为这些行业之外的领域就不需要或者不聘用担任数据工程师功能的人才。相反,尽管“数据工程师”在某一个领域内已经流行开来,互联网科技公司—— 这个特定职位的用法仍处于初始阶段。这个领域内的技术、流程和思维方式正在开始延伸到其它的行业。 当我们看到聘用了数据工程师的具体公司时,他们在科技领域的受欢迎程度就更加明显了。在前十的公司里,只有两家公司不是专门从事技术或数据的:一家电信公司(Verizon)和一家金融机构(Capital One)。 【图表:TOP 50 聘用数据工程师的公司】
▲ 经常在数据大会上分享经验的 Amazon、Facebook,Netflix,CapitalOne 等公司,都是业界数据应用的非常成功的公司,和其雇佣的数据工程师的人数呈正相关。 很有趣的是,一些公司聘用了不成比例的数据工程师。比如 Spotify(1600+ 雇员)比起必能宝(Pitney Bowes)(16,000 雇员)要小得多,但他们聘用的数据工程师数量相当。 这些数据清晰显示,现在的一些科技 “独角兽” 高度重视数据工程师一职。同时,考虑到三藩市目前有 6600 家公司在找数据工程师,这个趋势短期内似乎不会改变。 数据工程师干的活大体分为两个部分: 在整个业务流程,让消费者能接触到数据 打造 “产品化” 的算法,将其变为数据产品 总体而言,直接与数据相关的技能获得了越来越多的重视,另一方面,某些核心的软件技能也为数据工程师所青睐。 【图表:TOP 20 数据工程师的基本技能】
▲ 从图上可以看出用 SQL 来回答分析型的问题、写脚本来做数据集成、清洗这样的 ETL 任务和使用Hadoop生态的工具是数据工程师的主要工作。 No.1 SQL(Structured Query Language:结构化查询语言): 即便在数据技术领域,很多 NoSQL 倡导者 “欲除之而后快”,但 SQL 仍是数据工程师最普遍具备的技能。 No. 2 Java: Java 是最受数据工程师欢迎的编程语言。自从分布式系统基础架构 Hadoop 在 2000 年左右被开发出来后,JVM(Java Virtual Machine:Java 虚拟机)便处于数据处理的中心。 No.3 Python: 不仅被应用于数据工程,还能为分析任务服务——相较而言,总是和 Python 一同出现在新闻里的 R 语言,更专精于分析与统计,这应该也是 R 没有上榜的主要原因——在数据科学圈,数据工程和分析二者并重。 专家洞见 Mike Xu, Looker 的数据架构师:“弄明白你想要哪款数据工程师?” Mike 的职责之一是倾听开发者的心声:哪些事情让他们开心?哪些让他们不爽?最多的抱怨是什么呢?嗯,不同的数据工程角色间是有细微差别的,但很多公司却不懂行。 在 Mike 看来,数据工程师主要有 4 种角色——这也是招聘者应该弄明白的事情: 数据仓库:专注于为分析来优化数据仓库,主要是负责数据的读写和管理。 工具:总能在一系列数据工具箱里,极其擅长一、两样特定的工具(编者按:类似于 Hive, Hbase,ElasticSearch 等)。 架构:才华通透、“端到端” 的思考者,无论是数据收集,还是收集后帮助团队使用数据,他们需要考虑的事情多而杂,贯穿业务的很多环节。 运维(Ops):主要把时间花在建立数据库等事项,还要管理权限、操心数据安全。 (责任编辑:本港台直播) |