推荐人|陈诚 DataPipeline 创始人,前 Yelp 数据工程师。 在和国内外顶尖公司交流的过程中,我发现他们多数都很骄傲有一支极其专业的数据团队。这些公司花了大量的时间和精力把数据工程这件事情做到了极致,有不小规模的工程师团队,开源了大量数据技术。Linkedin 有 kafka, samza, Facebook 有 hive, presto, Airbnb有airflow, superset,我所熟悉的 Yelp 也有 mrjob…… 这些公司在数据领域的精益求精,为后来的大步前进奠定了基石。 今天推荐的这篇文章《美国数据工程现状》,从多个维度阐释了数据工程和数据工程师在美国的发展状况。或许你和我一样,都会有一些意想不到的发现。 我常觉得数据工程之于企业的意义,就好像马斯洛需求理论之于人的意义,从低到高进阶满足,企业对于数据工程的应用应该遵循这个三角原则。 第一层,企业要注意到公司发展过程中,最普世最基础的需求:即让数据可见可得。这需要我们重视数据工程这件事,这是企业做大做强安身立命的根本; 第二层,进阶需求。有了数据意识,招来了数据工程师,拉开架势开始干吧。这时候企业就需要开始从语义(semantic)的角度去理解跑起来的数据流了。实现从数据到企业战略指导再回到数据; 第三层,是目前看起来最接近塔尖也是最高级的需求:即建模、更完善的预测性算法、更漂亮的数据可视化、深度学习、AI 等等…… 这些更高级的更贴近金字塔尖,也是现在创业的风口。我偶尔也会被风吹的精神抖擞,但吹完风,静下来想想,一个企业没有好的数据工程、数据基础架构逻辑、没有构建数据流的能力,这些金塔尖上的需求是非常难被满足的,很难取得好的结果,也无法实现真正的价值。 是的,我又被风打下来了,开始站在地上思考问题了。 当然,对于创业公司来说,打造完整的数据工程、严密数据架构、高效的数据流是件 “正确但不容易的事情”。不好做、效果不直观,但很重要。 最后,我想引用 Kafka 技术的缔造者 (Kafka,被誉为 LinkedIn 的 “中枢神经系统”),现 Confluent 的 CEO Jay Kreps 的一句话:Without a reliable and complete data flow, a Hadoop cluster is little more than a very expensive and difficult-to-assemble space heater。如果你的公司没有一个完整可靠的数据流,那么你的 Hadoop 集群其实就像非常贵而且很难组装的暖气片而已。 如果你对中国数据工程现状充满兴趣和好奇心,欢迎你和我取得联系 [email protected]。 我是贴心的文章要点 6500 人在 LinkedIn (领英)上称自己是数据工程师。 2013 到 2015 年,atv直播,数据工程师的数量至少翻了一倍。 50% 的数据工程师都在美国。 42% 的数据工程师都是软件工程出身。 数据工程师主要供职于信息科技与服务产业。 数据工程师前 5 项主要技能是:SQL, Java, Python, Hadoop, 和Linux。R语言甚至都没进前 20。 ↓ 下文详解 ↓ 美国数据工程概况 来源 / Stitch Data 译者 / 黄谦、徐勇、王小佛、张耕、王心田、王挺、Raymond Yang 编辑/ 张潇冉 目前,LinkedIn 上有 6500 人称自己是数据工程师。而仅在旧金山,就有 6600 个这样的工作机会虚位以待。去年,数据工程师的数量翻了一倍,但工程主管们却仍觉得人才匮乏。 数据人才的旺盛需求源自一个根本性的变化:科技公司现如今都成了数据公司。 像 Uber、Airbnb、Spotify 这些公司都在大力发展数据产品,结果便造成数据系统开发和维护人才的激烈争夺。 Josh Wills 是 Slack 的数据工程师,在 2016 数据工程大会(DataEngConf 2016)上半开玩笑地说:“我的数据工程师都在会场了,请你们别挖墙角。”即使 Slack 这样当红的硅谷企业,也在担忧如何留住这些宝贵人才。 我们的研究着重于说明以下几个方面: 目前市场上数据工程师的数量; 数据工程师的背景和核心技能 —— 这些信息对于主管们研究如何将软件工程转换至数据工程特别有用(编者按:以缓解招聘数据工程师的压力); 数据工程师的就业信息 —— 帮助你说明为什么要投资(时间/精力/金钱)到这项昂贵的技能中来。 (责任编辑:本港台直播) |