正如表格 2 中显示的,我们的小模型在几天内就达到了 43.9 的 perplexity 值。我们的大模型在 6 天内达到了 39.8 的 perplexity 值。目前最好的 perplexity 值(越小越好)是 30.0,由 Jozefowicz 等人在 2016 年达到。这个结果是他们用 3 周的时间,使用了 32 个 GPU 达到的。他们也声称使用 18 个 GPU 训练的更小模型,达到了数值为 44 的 perplexity 值。我们的小模型的速度为 180 毫秒/批,并在一个迭代(epoch)后(迭代时间大约为 14 小时)达到数值为 50 的 perplexity 值。不使用 cuDNN 加速库,小模型的速度为 230 毫秒/批,这比之前只慢了 30%。 ©本文由机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |