本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:横向对比三大分布式机器学习平台:Spark、PMLS、(3)

时间:2017-08-04 19:44来源:本港台直播 作者:开奖直播现场 点击:
这幅图给出了各平台的 CPU 利用率。Spark 应用似乎有明显很高的 CPU 利用率,这主要是因为序列化(serialization)的额外开销。我们更早期的工作已经指出了

这幅图给出了各平台的 CPU 利用率。Spark 应用似乎有明显很高的 CPU 利用率,这主要是因为序列化(serialization)的额外开销。我们更早期的工作已经指出了这一问题:https://muratbuffalo.blogspot.com/2017/05/paper-summary-making-sense-of.html

总结与未来方向

机器学习/深度学习应用的并行处理让人为难,而且从并发算法(concurrent algorithms)的角度看并不非常有趣。可以相当肯定地说参数服务器方法在分布式机器学习平台的训练上更好。

至于局限性方面,网络仍然是分布式机器学习应用的一个瓶颈。提供更好的数据/模型分级比更先进的通用数据数据流平台更有用;应该将数据/模型看作头等公民。

但是,可能会有一些让人惊奇和微妙的地方。在 Spark 中,CPU 开销会先于网络限制变成瓶颈。Spark 使用的编程语言 Scala/JVM 显著影响了其性能表现。因此分布式机器学习平台尤其需要更好的监控和/或性能预测工具。最近已经有人提出了一些解决 Spark 数据处理应用的问题的工具,比如 Ernest 和 CherryPick。

在机器学习运行时的分布式系统支持上还有很多悬而未决的问题,比如资源调度和运行时的性能提升。对应用使用运行时监控/性能分析,下一代分布式机器学习平台应该会提供任务运行的计算、内存、网络资源的详细的运行时弹性配置/调度。

最后,在编程和软件工程支持方面也有一些待解决的问题。什么样的(分布式)编程抽象思想适用于机器学习应用?另外在分布式机器学习应用的检验和验证(尤其是使用有问题的输入来测试 DNN)上也还需要更多研究。

原文链接:

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容