本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【组图】谷歌大脑:混合专家层超大规模 AI,模型性能提升 1000 多倍(2)

时间:2017-03-17 02:31来源:天下彩论坛 作者:118开奖 点击:
网络带宽可能是一个瓶颈。一组GPU可能拥有的计算能力比聚合设备间网络(aggregate inter-device network)带宽大几千倍。为了计算效率,计算与网络需求之比必

网络带宽可能是一个瓶颈。一组GPU可能拥有的计算能力比聚合设备间网络(aggregate inter-device network)带宽大几千倍。为了计算效率,计算与网络需求之比必须超过该比率。嵌入层可以看作是一种形式的条件计算,正是这个问题的不利条件。由于嵌入通常需要跨网络传送,交互的数量(例如参数数量)受网络带宽而不是计算能力的限制。

根据这样的图式,损失项(loss terms)可能是实现每个 chunk 和/或每个 example 的期望稀疏水平(sparsity)所必需的。Bengio 等人(2015)的研究使用了三个这样的损失项。这些问题可能会同时影响模型质量和负载平衡。

  模型容量(model capacity)对非常大的数据集来说是最关键的。现有有关条件计算的前人研究涉及由较小的图像识别数据集组成的包含 600000 张图像的数据集。很难想象这些图像的标记提供足够的信号来充分训练具有数百万,甚至数十亿的参数的模型。

  在这项研究中,我们首次解决了上述的所有挑战,最终实现了条件计算所能带来的好处。我们在模型容量上得到了超过1000倍的提升,在计算效率方面只有微小的损失,并显着提高了在公共语言建模和翻译数据集上的最优结果。

  1.2 我们的方法:稀疏门控混合专家层(Sparsely-Gated Mixture-of-Experts layer)

  我们的条件计算方法是提出一种新型的通用神经网络组件:稀疏门控混合专家层(MoE)。MoE 由许多专家组成,每个专家都有一个简单的前馈神经网络和一个可训练的门网络(gating network),该门网络选择专家的一个稀疏组合来处理每个输入(见图1)。网络的所有部分通过反向传播一起训练。

  虽然我们提出的该项技术是通用的,但在本研究中,我们专注于语言建模和机器翻译任务,这些任务已经被证明能从非常大的模型中获益。我们在堆叠的 LSTM 层之间应用一个卷积MoE(Hochreiter&Schmidhuber,1997),如图1所示。对文本中的每个位置,MoE 都被调用一次,在每个位置上可能选择不同的专家组合。基于句法和语义(见附录E Table 9),不同的专家能够高度专业化。在语言建模和机器翻译基准上,我们以很小的计算成本得到了比现有已发表最佳结果更好的表现。

  2. 专家混合(MoE)层的结构

  专家混合(MoE)层由一组 n 个“专家网络” E1,...,En 和“输出为稀疏 n 维向量”的“门控网络”G组成。图1 显示了 MoE 模块的结构。每个专家本身也是神经网络,都有自己的参数。虽然原则上只需要专家接受相同大小的输入并产生相同大小的输出,但在本文的初步调查中,我们将情况限定为这些模型都是具有相同架构的前馈网络,但参数是彼此独立的。

  2.1 门控网络

  Softmax 门控 非稀疏门控函数的简单选择(Jordan和Jacobs,1994)是将输入乘以可训练的权重矩阵Wg,然后应用Softmax 函数。

  Noisy Top-K 门控 我们在 Softmax门控网络中增加了两个组件:稀疏和噪声。进行 Softmax 函数之前,我们添加可调高斯噪声,然后只保留前 k 个值,将其余部分设置为 -∞(这导致相应的门值等于0)。稀疏度能够节省计算力。虽然这种形式的稀疏性在门控函数的输出中产生了一些理论上不连续,但我们在实践中尚未观察到这成为问题。噪声项(noise term)有助于负载平衡(load balancing)。每个分量的噪声量由第二个可训练权重的矩阵 Wnoise 控制。

  

wzatv:【j2开奖】谷歌大脑:混合专家层超大规模 AI,模型性能提升 1000 多倍

  训练门控网络我们使用简单的反向传播训练门控网络和模型的其余部分。如果我们选择 k> 1,则前k 个专家的门值相对于门控网络的权重具有非零导数。这种类型的行为在(Bengio 等人,2013)关于噪声整流器的研究中有相关描述。梯度也通过门控网络进行反向传播一直到其输入。我们采用的方法与(Bengio 等人,2015)的不同,他们使用布尔门和一个 REINFORCE 风格的方法来训练门控网络。

  3. 性能挑战

  3.1 批处理问题

  在现代 CPU 和 GPU 上,大的批处理量对于计算效率是必要的,这样能够分摊参数加载和更新的开销。如果门控网络为每个样本从 n 个专家中选择 k 个,atv,则对于一批 b 个样本来说,每个专家接收的批次要远远小于 b 个样本。这导致随着专家数量的增加,朴素 MoE 的实现变得非常低效。这种收缩批处理问题的解决方案是使原始批处理量尽可能大。但是,批量大小多受存储前进和后退之间激活所需的存储器的限制。由此,我们提出了以下技术用于增加批量大小:

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容