本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【图】业界 | 商汤科技联合南洋理工大学推出Dorm:用于大规模分布式机器学习的集群管理

时间:2017-05-03 01:06来源:668论坛 作者:开奖直播现场 点击:
参与:晏奇、黄小天 虽然超参数调试确实很吸引人,相比之下集群管理逊色一些,但它对高性能的下一代发展却至关重要。 在过去的几十年中,那些找寻集群管理(cluster management)平

参与:晏奇、黄小天

虽然超参数调试确实很吸引人,相比之下集群管理逊色一些,直播,但它对高性能的下一代发展却至关重要。

在过去的几十年中,那些找寻集群管理(cluster management)平台之人面临着不少选择。然而,大规模集群要求不同的运作方式,即处理大规模的深度学习工作量,而这又需要专门方法以实现高利用率、效率和性能。高性能计算社群中几乎所有的集群管理工具正走在机器学习的方向上,但是对于深度学习产品,又出现了 DIY 的趋势。在基于容器的(container-based)开源工具的范围内,这并不复杂,并且这种 DIY 方法可根据特有框架和内部应用自行调试。

  由于缺乏足够鲁棒的集群管理器(用于大规模集群以处理大量的机器学习工作量),中国机器学习创业公司商汤科技不得不自主研发。通过与新加坡南洋理工大学展开合作,他们推出了动态分区(dynamically partitioned)集群管理平台 Dorm(论文地址:https://arxiv.org/pdf/1704.06738.pdf),优化了效用均衡(utilization balance)。这一容器驱动(container-driven)的方法实际上是在每一分区上运行应用程序的过程中切分了集群(cluster),并同时扩展了这些分区以均衡资源。

  在数以千计的 GPU 和 CPU 机器上高效扩展深度学习工作量的性能是商汤科技的核心任务。商汤科技刚刚又(融资总额达 1.8 亿美元),其为客户、企业和研究者提供图像识别服务,服务对象超过 300 家终端用户,开奖,其中包括巨头公司华为、中国银联、中国移动等。

商汤生产工作量的内部基准表明,分布式机器学习应用与极短的任务时间(task duration)相比具有较长的应用时间(application duration),其中 90% 的分布式应用运行时间超过 6 个小时,而极短任务只超过 1 秒。这一失衡正是强调资源公平性的 Dorm 方法的目标。有了集群管理系统 Dorm,每当应用完成或者被提交时,它会做出调节,防止资源利用出现失衡。

构建 Dorm 同时用到了 Docker 和 Cloud3DView,它们整合了商汤使用的各种机器学习框架,比如 TensorFlow、MPI-Caffe、Petuum 和 MXNet。商汤自己的生产测试平台表明,Dorm 与现有的分布式机器学习机制相比,可把利用率提高 1.52 倍,原有框架最高加速至 2.72 倍;商汤还表示 Dorm 可将共享开销(sharing overhead)限制在 5% 以内。

wzatv:【图】业界 | 商汤科技联合南洋理工大学推出Dorm:用于大规模分布式机器学习的集群管理

Dorm 架构。本例使用一个 MXNet 应用与一个 TensorFlow 应用,它们共享一个具有三台服务器的集群。

如上图所示,该架构具备一个 DormMaster 和 3 个 Dormslave(对于在大学里常驻的那些喜欢支配别人的教宿管人员来说,这是一个令人恐惧的类比)。在集群中 DM 管理所有资源并使用容器作为分区,每个应用都有一个分区。「效用公平优化器」(utilization fairness optimizer)也是 DM 的一个部分,它被用于控制资源分配。每个 slave 都管理集群中一个节点的本地资源,并且将报告发回给 DM,告诉它那些资源可用。DM 也使用容器努力共享服务器,而不只与应用共享。

「很多集群管理系统都被建议在同一个集群中运行多个分布式计算系统,其原因有二:第一,用户能获取每个应用最好部分;第二,集群分享能够显著改善集群资源利用与应用性能。」团队在 Dorm 的详细基准中解释道。

「现有的集群管理系统都不能在共享一个给定三个标准的集群之下有效管理分布式机器学习工作负载,所谓三个标准指的是:高资源利用率、低平衡缺失、低分享开销。」团队描述了这些 Dorm 现有方法的缺点,并提醒说,包括 monolithic 在内的很多两级共享状态的全分布式和混合集群管理器只能静态地将资源分配给分布式机器学习应用,而不允许它们基于集群状态动态地增减规模或是进出——这是造成低利用率与公平缺失的关键原因。

既然不少大规模机器学习的硬件和框架难题聚集在一起,那么有关提取完整性能和效率的细节也将浮出水面,且详细度前所未有。例如,上周我们讨论了更细微细节中的一些,包括将会吸引投资和关注的下一个热门领域超参数调试。虽然超参数调试确实很吸引人,相比之下集群管理逊色一些,但它对高性能的下一代发展却至关重要。

  原文链接:https://www.nextplatform.com/2017/05/01/cluster-management-distributed-machine-learning-scale/

  本文为机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容