图 5:在 DGX-half(4 块 GPU)上,512 的 Batch 与 4096 的 Batch 有同样的速度。在 DGX(8 块 GPU)上,4096 的 Batch 是 512 Batch 速度的 2.6 倍。因此,大批量在计算能力增强的时候会有收益。 表 10:AlexNet 的速度和时间 5 结论 优化难题导致大批量训练的准确度损失。只使用线性缩放和预热策略(warmup scheme)这样的方法对复杂的应用而言并不足够,例如使用 AlexNet 来训练 ImageNet。我们提出层级对应的适应率缩放(Layer-wise Adaptive Rate Scaling/LARS),它基于权重的范数和梯度的范数在不同层级上使用不同的学习率。在实验中,LARS 表现出了极高的效率。通过使用 LARS,把进行 ImageNet 训练的 AlexNet 模型的批量大小从 128 增加到 8192 的时候,我们依然能得到同样的准确度。我们也能把 ResNet-50 的批量大小扩展到 32768,大批量也能充分使用系统的计算能力。 (责任编辑:本港台直播) |