本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】谷歌宣布开源 Apache Beam,布局下一代大数据处理平台

时间:2017-01-12 19:51来源:天下彩论坛 作者:本港台直播 点击:
编译:刘小芹、序媛 新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j [email protected].

编译:刘小芹、序媛

  

  新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  简历投递:j[email protected]

  HR 微信:13552313024

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和金。

  加盟新智元,与人工智能业界领袖携手改变世界。

  谷歌昨日宣布Apache Beam 在经过近一年的孵化后终于从 Apache 孵化器毕业,现在已经是一个成熟的顶级 Apache 项目。这一成就直接反应了社区为把 Beam 转变为开放、专业、社区驱动的项目所付出的努力。

  11个月前,谷歌以及一些合作伙伴向 Apachee 软件基金会捐赠了大量代,从而得以开始孵化 Beam 项目。这些代的大部分来自谷歌的 Cloud Dataflow SDK,是开发者用来编写流处理(streaming)和批处理管道(batch pinelines)的库,可以在任何支持的执行引擎上运行。

  

码报:【j2开奖】谷歌宣布开源 Apache Beam,布局下一代大数据处理平台

  Spark 和开发中的 Apache Flink 的支持。到今天它已经有5个官方支持的引擎,除了上述三个,还有 Beam Model 和 Apache Apex。虽然 Apache Beam 的创建背后有许多动机,但核心的动机是希望在这个数据处理的强大模型周围建立起一个开放、繁荣的社区和生态环境,毕竟这是谷歌的许多研究员花了许多年的经历不断完善的模型。但是把这样一个拥有十多年工程量的项目从一个公司内部提出来,开放给大众,这绝非易事。

  下面是在成熟度模型评估中 Apache Beam 的一些统计数据:

代码库的约22个大模块中,至少有10个模块是社区从零开发的,这些模块的开发很少或几乎没有得到来自谷歌的贡献。

从去年9月以来,没有哪个单独的组织每月有约50%的独立贡献者。

孵化期间添加的大部分新提交都来自谷歌之外。

  这里引用来自 Apache 孵化器副总裁 Ted Dunning 的一段评价:

  “在我的日常工作,atv,以及作为在 Apache 的工作的一部分,我对 Google 真正理解如何利用 Apache 这样的开源社区的方式非常感佩。Apache Beam 项目就是这方面的一个很好的例子,是有关如何建立一个社区的非常好的例子。”

  

码报:【j2开奖】谷歌宣布开源 Apache Beam,布局下一代大数据处理平台

  谷歌工程师、Apache Beam PMC Tyler Akidau 表示,谷歌一如既往地保持它对 Apache Beam 的承诺,即所有参与者(不管是否谷歌内部开发者)完成了一个非常好的开源项目,真正实现了“open”这个词的最好含义。

  Akidau 在官方博文中写道,这就是开源软件令人感佩的原因:“人们聚在一起创建每个人可用的伟大、实用的系统,因为这项工作令人兴奋、有用而且与自身息息相关。这是我对创建 Apache Beam 感到非常兴奋的主要原因,是我为自己在这段旅程中做出了一些小小的贡献感到自豪的原因,以及我对社区为实现这个项目投入的所有工作感到非常感激的原因。”

  Apache Beam 的毕业和开源,意味着谷歌已经准备好继续推进流处理和批处理中最先进的技术。谷歌已经准备好将可移植性带到可编程数据处理,这大部分与SQL为声明式数据分析的运作方式一致。研究人员也表示,他们还准备好恢复以前由于强制“孵化”名字对象所消耗的大量文本空间。

  对谷歌的战略意义

  新智元此前曾报道,Angel是腾讯大数据部门发布的第三代计算平台,使用Java和Scala语言开发,面向机器学习的高性能分布式计算框架,由腾讯与香港科技大学、北京大学联合研发。它采用参数服务器架构,解决了上一代框架的扩展性问题,支持数据并行及模型并行的计算模式,能支持十亿级别维度的模型训练。

  据介绍,Angel 还采用了多种业界最新技术和腾讯自主研发技术,如SSP(Stale synchronous Parallel)、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高,达到常见开源系统Spark的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容