Facebook「1小时训练ImageNet」论文与MXNet团队发生争_本港台直播_J2开奖直播

近日，Facebook 公布了一篇研究论文《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》，介绍了他们一项最新的研究成果——一种将批量大小提高的分布式同步 SGD 训练方法，希望能有助于解决越来越长的训练时间。但就文章的创新度、引用内容上，这篇论文的几位作者与曾致力于同一领域的 MXNet 的几位成员之间出现了争议，他们在贾扬清的一篇 Facebook 帖子下各抒己见，表达了各自的立场和看法。这一事件引起了业内人士不小的关注。

为了让读者更加了解这一事件的始末，机器之心将在这篇文章中将以尽可能中立的态度对 MXNet 之前做过的类似工作进行介绍——据称这也是所述 Facebook 论文的引用中忽视的研究。另外，本文还将引述一些双方争论的观点，以提供更加全面的视角。首先需要强调一下：目前争议双方已经在此事上达成了和解。

MXNet 的可扩展性

MXNet 是一个全功能，灵活可编程和高扩展性的深度学习框架，支持深度学习模型中的最先进技术，包括卷积神经网络（CNN）和长期短期记忆网络（LSTM）。MXNet 由学术界发起，包括数个顶尖大学的研究人员的贡献，这些机构包括华盛顿大学和卡内基梅隆大学。

深度学习框架在多核心处理器中的运行效率是其性能的重要指标。更高效的扩展（Scaling）可以让训练新模型的速度显著提高，或在相同的训练时间内大幅提高模型的复杂性。

去年 11 月 23 日，亚马逊宣布将 MXNet 作为其深度学习主要框架，此时的 MXNet 团队已经表示他们正在使用越来越多的 GPU 训练图像分析算法 Inception v3（在 MXNet 中实现并在 P2 实例上运行）。MXNet 团队当时表示，该框架不仅具有所有已知库中最快的吞吐量（每秒训练的图像数量），而且吞吐量提高几乎与用于训练的 GPU 数量成正比（比例为 85 ％）。

2016 年 12 月 19 日，MXNet 在 Github 上公开了 ResNet 分布式训练的收敛结果，其主要思想是在增加 batch size 同时增大 learning rate。

Facebook「1小时训练ImageNet」论文与MXNet团队发生争

相关 GithHub 页面链接：https://github.com/dmlc/mxnet/commit/e62fbe1bd0bc0564ce1b97a33a9032c8dbd749ec

知情人士指出，亚马逊曾在去年 12 月底的 AWS Reinvent 上展示过这一成果，而 MXNet 的可扩展性能力则更是早已在相关博客上展示。

在 MXNet 的主要开发者李沐 2017 年 2 月正式发表的论文《Scaling Distributed Machine Learning with System and Algorithm Co-design》中，也有一段有关 MXNet 可扩展性的介绍：

在实验中，我们使用 ImageNet 训练了 ResNet-152。作为基准，我们使用了一台 8 块 GPU 的机器，每块 GPU 处理 32 批尺寸，合计共 256。

Facebook「1小时训练ImageNet」论文与MXNet团队发生争

一次 SGD 迭代的通信成本和总成本。实验在多台机器上执行，但这些机器的 GPU 总数量均为 8 块。

我们调整了学习速度：我们以学习速度 0.1 开始训练过程；随后分别在时间点 30、60 和 90 上将速度除以 10；我们进一步在时间点 100 时停止了数据扩张。如下图所示，与基线相比，我们在时间点 110 处得到了 77.8% 的最高准确率，与此前 77% 的准确率结果相匹配。在把 GPU 数量从 8 个增加到 80 个之后，批尺寸也从 256 增加到了 2560。我们改变了原始学习速度（从 0.1 改为 0.5）。在 160 个 GPU 上，我们将批尺寸增加到了 5120，而学习速度也进一步增加到了 1，学习速度减少的时间点也从 30 推后到了 50。这些探索让训练过程有了更多延展性。

在下图中，我们画出了准确率随着 SGD 时间点的变化曲线。在仔细调整学习速度的情况下，批尺寸没有显著影响算法的收敛。在 2560 批尺寸时，曲线与基线的收敛程度非常接近；而在 5120 个批尺寸时，尽管在一开始曲线不甚稳定，但在随后的训练过程中它逐渐与基线趋近。

Facebook「1小时训练ImageNet」论文与MXNet团队发生争

在 ImageNet 数据集上 ResNet 的精度与时间节点的对比图。其中每个 GPU 使用的批尺寸为 32，使用了同步 SGD。

可扩展性一直是各家深度学习框架力图优化的方向。在今年 4 月 18 日，Facebook 推出 Caffe2 时，TechCrunch 曾采访了 Facebook AI 平台首席工程师贾扬清（他也是 Caffe 系列的主要开发者），在被问及对于 MXNet 可扩展性的看法时，贾扬清表达了对于基准测试数据的谨慎态度。基准测试得出的数据可以有意义，但也相当程度受到机器模型实现方式的影响。

「所有框架目前都有或多或少类似的可扩展能力，」贾扬清表示。「而我们确信 Caffe2 要比其他框架稍微领先一些。」

与 Facebook 论文间的争论

Facebook「1小时训练ImageNet」论文与MXNet团队发生争

(责任编辑：本港台直播)