码报:继1小时训练ImageNet之后，大批量训练扩展到了3万(3)_本港台直播_J2开奖直播_www.wzatv.cc

本港台开奖现场直播

j2开奖直播报码现场

当前位置: 新闻频道 > IT新闻 >

码报:继1小时训练ImageNet之后，大批量训练扩展到了3万(3)

时间:2017-08-21 00:13来源:本港台现场报码作者:www.wzatv.cc 点击: 次

图 5：在 DGX-half（4 块 GPU）上，512 的 Batch 与 4096 的 Batch 有同样的速度。在 DGX（8 块 GPU）上，4096 的 Batch 是 512 Batch 速度的 2.6 倍。因此，大批量在计算能

图 5：在 DGX-half（4 块 GPU）上，512 的 Batch 与 4096 的 Batch 有同样的速度。在 DGX（8 块 GPU）上，4096 的 Batch 是 512 Batch 速度的 2.6 倍。因此，大批量在计算能力增强的时候会有收益。

表 10：AlexNet 的速度和时间

5 结论

优化难题导致大批量训练的准确度损失。只使用线性缩放和预热策略（warmup scheme）这样的方法对复杂的应用而言并不足够，例如使用 AlexNet 来训练 ImageNet。我们提出层级对应的适应率缩放（Layer-wise Adaptive Rate Scaling/LARS），它基于权重的范数和梯度的范数在不同层级上使用不同的学习率。在实验中，LARS 表现出了极高的效率。通过使用 LARS，把进行 ImageNet 训练的 AlexNet 模型的批量大小从 128 增加到 8192 的时候，我们依然能得到同样的准确度。我们也能把 ResNet-50 的批量大小扩展到 32768，大批量也能充分使用系统的计算能力。

(责任编辑：本港台直播)

顶一下

(0)

0%

踩一下

(0)

0%

------分隔线----------------------------

上一篇：wzatv:Geoffrey Hinton多伦多大学演讲：卷积神经网络的问
下一篇：wzatv:宅男的福音：用GAN自动生成二次元萌妹子

栏目列表

推荐内容

码报:央行要求支付宝纠正支付宝年
（原标题：支付宝年度账单默认勾选引央行关注，曾要求其纠正...
紫光控股继续增持联想控股 22日再
啪啪啪讯12月22日，紫光控股发布公告称，于12月22日进一步购入...
wzatv:Alphabet董事长明年1月卸任：他
（原标题：谷歌母公司执行董事长施密特明年1月卸任：他给谷歌...
码报:和创金服房平：再过三五年会
啪啪啪讯12月21日消息，近日和创金服CEO房平在接受啪啪啪采访中...
码报:外媒：腾讯悄悄打造中国迪斯
（原标题：China's Tencent Has Quietly Built An Entertainment Empire That Wes...
wzatv:CBNData消费大数据报告：90后是
啪啪啪讯 12月20日消息，今日CBNData根据过去一年里对中国大消费...

热点内容