当使用合成梯度(Synthetic Gradients /SG)训练神经网络时,可以在不使用更新锁定(update locking)的情况下训练层级或模块,这样就不需要等待误差真值梯度(true error gradient)沿反向传播,也就导致一种退耦合神经接口(Decoupled Neural Interfaces/DNIs)。这种更新解锁的能力(unlocked ability)可以使用异步的方式更新部分神经网络,并且 Jaderberg 等人(2016)也证明了只有局部信息(local information)能以经验为主地工作(work empirically)。然而,很少有证据表明是什么改变了从函数(functional)、表征(representational)和视角学习动力点(learning dynamics point)实施的 DNI 和 SG。在本论文中,我们通过使用前馈网络上的合成梯度(Synthetic Gradients)来研究 DNI,并期望能更好地理解它们的行为和阐明其对优化算法的影响。我们的研究表明 SG 的并入并不会影响神经网络学习系统的表征强度(representational strength),atv,并证明了线性和深线性(deep linear)模型的学习系统收敛性。在实际操作问题上,我们调查了使用合成梯度估计量逼近损失真值(true loss)的机制,并很惊讶地发现其是如何导致完全不同的层级表征。最后,我们还揭示了合成梯度和其他误差逼近技术(error approximation techniques)的关系,并发现可以使用同一的语言进行讨论和比较。 ©本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |