码报:【j2开奖】Hinton 谷歌大脑最新研究：1370 亿参数超大规模神经网络(2)_本港台直播_J2开奖直播

现代计算设备，特别是 GPU，在运算（arithmetic）上比在分支（branching）上快得多。前面提到的大部分研究都认识到这一点，并提出利用每个门控决策打开/关闭网络的较大chunk。

批大小对网络性能至关重要，因为它们摊销了参数传输和更新的成本。条件计算减小了网络的条件激活块的批大小。

网络带宽可能是一个瓶颈。一组GPU可能拥有的计算能力比聚合设备间网络（aggregate inter-device network）带宽大几千倍。为了计算效率，计算与网络需求之比必须超过该比率。嵌入层可以看作是一种形式的条件计算，正是这个问题的不利条件。由于嵌入通常需要跨网络传送，交互的数量（例如参数数量）受网络带宽而不是计算能力的限制。

根据这样的图式，损失项（loss terms）可能是实现每个 chunk 和/或每个 example 的期望稀疏水平（sparsity）所必需的。Bengio 等人（2015）的研究使用了三个这样的损失项。这些问题可能会同时影响模型质量和负载平衡。

　　模型容量（model capacity）对非常大的数据集来说是最关键的。现有有关条件计算的前人研究涉及由较小的图像识别数据集组成的包含 600000 张图像的数据集。很难想象这些图像的标记提供足够的信号来充分训练具有数百万，甚至数十亿的参数的模型。

　　在这项研究中，我们首次解决了上述的所有挑战，最终实现了条件计算所能带来的好处。我们在模型容量上得到了超过1000倍的提升，在计算效率方面只有微小的损失，并显着提高了在公共语言建模和翻译数据集上的最优结果。

　　1.2 我们的方法：稀疏门控混合专家层（Sparsely-Gated Mixture-of-Experts layer）

　　我们的条件计算方法是提出一种新型的通用神经网络组件：稀疏门控混合专家层（MoE）。MoE 由许多专家组成，每个专家都有一个简单的前馈神经网络和一个可训练的门网络（gating network），该门网络选择专家的一个稀疏组合来处理每个输入（见图1）。网络的所有部分通过反向传播一起训练。

　　虽然我们提出的该项技术是通用的，但在本研究中，我们专注于语言建模和机器翻译任务，这些任务已经被证明能从非常大的模型中获益。我们在堆叠的 LSTM 层之间应用一个卷积MoE（Hochreiter＆Schmidhuber，1997），如图1所示。对文本中的每个位置，MoE 都被调用一次，在每个位置上可能选择不同的专家组合。基于句法和语义（见附录E Table 9），不同的专家能够高度专业化。在语言建模和机器翻译基准上，我们以很小的计算成本得到了比现有已发表最佳结果更好的表现。

　　2. 专家混合（MoE）层的结构

　　专家混合（MoE）层由一组 n 个“专家网络” E1，...，En 和“输出为稀疏 n 维向量”的“门控网络”G组成。图1 显示了 MoE 模块的结构。每个专家本身也是神经网络，都有自己的参数。虽然原则上只需要专家接受相同大小的输入并产生相同大小的输出，但在本文的初步调查中，我们将情况限定为这些模型都是具有相同架构的前馈网络，但参数是彼此独立的。

　　2.1 门控网络

　　Softmax 门控 非稀疏门控函数的简单选择（Jordan和Jacobs，1994）是将输入乘以可训练的权重矩阵Wg，然后应用Softmax 函数。

　　Noisy Top-K 门控 我们在 Softmax门控网络中增加了两个组件：稀疏和噪声。进行 Softmax 函数之前，我们添加可调高斯噪声，然后只保留前 k 个值，将其余部分设置为 -∞（这导致相应的门值等于0）。稀疏度能够节省计算力。虽然这种形式的稀疏性在门控函数的输出中产生了一些理论上不连续，但我们在实践中尚未观察到这成为问题。噪声项（noise term）有助于负载平衡（load balancing）。每个分量的噪声量由第二个可训练权重的矩阵 Wnoise 控制。

码报:【j2开奖】Hinton 谷歌大脑最新研究：1370 亿参数超大规模神经网络

　　训练门控网络我们使用简单的反向传播训练门控网络和模型的其余部分。如果我们选择 k> 1，则前k 个专家的门值相对于门控网络的权重具有非零导数。这种类型的行为在（Bengio 等人，2013）关于噪声整流器的研究中有相关描述。梯度也通过门控网络进行反向传播一直到其输入。我们采用的方法与（Bengio 等人，j2直播，2015）的不同，他们使用布尔门和一个 REINFORCE 风格的方法来训练门控网络。

　　3. 性能挑战

　　3.1 批处理问题

(责任编辑：本港台直播)