本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:继1小时训练ImageNet之后,大批量训练扩展到了3万(3)

时间:2017-08-21 00:13来源:本港台现场报码 作者:www.wzatv.cc 点击:
图 5:在 DGX-half(4 块 GPU)上,512 的 Batch 与 4096 的 Batch 有同样的速度。在 DGX(8 块 GPU)上,4096 的 Batch 是 512 Batch 速度的 2.6 倍。因此,大批量在计算能

图 5:在 DGX-half(4 块 GPU)上,512 的 Batch 与 4096 的 Batch 有同样的速度。在 DGX(8 块 GPU)上,4096 的 Batch 是 512 Batch 速度的 2.6 倍。因此,大批量在计算能力增强的时候会有收益。

表 10:AlexNet 的速度和时间

5 结论

优化难题导致大批量训练的准确度损失。只使用线性缩放和预热策略(warmup scheme)这样的方法对复杂的应用而言并不足够,例如使用 AlexNet 来训练 ImageNet。我们提出层级对应的适应率缩放(Layer-wise Adaptive Rate Scaling/LARS),它基于权重的范数和梯度的范数在不同层级上使用不同的学习率。在实验中,LARS 表现出了极高的效率。通过使用 LARS,把进行 ImageNet 训练的 AlexNet 模型的批量大小从 128 增加到 8192 的时候,我们依然能得到同样的准确度。我们也能把 ResNet-50 的批量大小扩展到 32768,大批量也能充分使用系统的计算能力。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容