本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】学界 | 微软重磅论文提出LightRNN:高效利用内存和计算的循环神经网络

时间:2016-11-02 03:52来源:118图库 作者:118KJ 点击:
参与:李泽南、吴攀、蒋思源 摘要 循环神经网络(RNN)已经在许多自然语言处理任务上取得了最出色的表现,比如语言建模和机器翻译。然而当词汇量很大时,RNN 模型会变得很大(

参与:李泽南、吴攀、蒋思源

  

【j2开奖】学界 | 微软重磅论文提出LightRNN:高效利用内存和计算的循环神经网络

摘要

循环神经网络(RNN)已经在许多自然语言处理任务上取得了最出色的表现,比如语言建模和机器翻译。然而当词汇量很大时,RNN 模型会变得很大(可能超过 GPU 最大的内存能力),这样训练将变得很低效。在这项工作中,我们提出一种全新的方法来解决这一挑战。其中的关键思想是使用二分量(2-Component(2C))共享的词表征的嵌入(embedding for word representations)。

我们将词汇表中的每一个词都分配到一个表格中,其中每一行都关联了一个向量,每一列则关联了另一个向量。根据一个词在表中的位置,该词可由行向量和列向量两个维度联合表示。因为该表中同一行具有相同的行向量,同一列具有相同的列向量,所以我们仅仅需要 2p|V|个向量来表示带有|V|个词的词汇表,这远远少于现有的方法所需要的向量数|V|。基于二分量(2-Component)共享嵌入的方法,我们设计了一种新的 RNN 算法,并且使用几个基准数据集上的语言建模任务对其进行了评估。

结果表明,我们的算法可以显著地减少模型的大小,并且能在不牺牲精度的情况下加快训练速度(它实现了与当前最佳的语言模型相近或更好的困惑度(perplexity))。值得注意的是,在 One-Billion-Word 基准数据集上,我们的算法实现了和以前语言模型差不多的困惑度,同时却将模型的大小减小了 40 到 100 倍、训练过程也加快了 2 倍。我们将我们提出来的算法命名为 LightRNN, 这主要是反应它在模型大小上的精简和很快的训练速度。

  

【j2开奖】学界 | 微软重磅论文提出LightRNN:高效利用内存和计算的循环神经网络

训练 ACLW-French 时的困惑度对比

引言

最近,循环神经网络(RNN)已被用于处理多种自然语言处理(NLP)任务,例如语言建模、机器翻译、情绪分析和问答。有一种流行的 RNN 架构是长短期记忆网络(LSTM),其可以通过记忆单元(memory cell)和门函数(gating function)建模长期依赖性和解决梯度消失问题。因为这些元素,LSTM 循环神经网络在当前许多自然语言处理任务中都实现了最佳的表现,尽管它的方式几乎是从头开始学习。

虽然 RNN 越来越受欢迎,但它也存在一个局限性:当应用于大词汇的文本语料库时,开奖,模型的体量将变得非常大。比如说,当使用 RNN 进行语言建模时,词首先需要通过输入嵌入矩阵(input-embedding matrix)从 one-hot 向量(其维度与词汇尺寸相同)映射到嵌入向量。然后为了预测下一词的概率,通过输出嵌入矩阵(output-embedding matrix)将顶部隐藏层投射成词汇表中所有词的概率分布。当该词汇库包含数千万个不同的词时(这在 Web 语料库中很常见),这两个嵌入矩阵就会包含数百亿个不同的元素,这会使得 RNN 模型变得过大,从而无法装进 GPU 设备的内存。以 ClueWeb 数据集为例,其词汇集包含超过 1000 万词。如果嵌入向量具有 1024 个维度并且每个维度由 32 位浮点表示,则输入嵌入矩阵的大小将为大约 40GB。进一步考虑输出嵌入矩阵和隐藏层之间的权重,RNN 模型将大于 80GB,这一数字远远超出了市面上最好的 GPU 的能力。

即使 GPU 的内存可以扩容,用于训练这样体量模型的计算复杂度也将高到难以承受。在 RNN 语言模型中,最耗时的运算是计算词汇表中所有词的概率分布,这需要叠乘序列每个位置处的输出嵌入矩阵和隐藏状态。简单计算一下就可以知道,需要使用目前最好的单 GPU 设备计算数十年才能完成 ClueWeb 数据集语言模型的训练。此外,除了训练阶段的难题,即使我们最终训练出了这样的模型,我们也几乎不可能将其装进移动设备让它进入应用。

为了应对这些挑战,在本研究中我们提出了将二分量(2-Component)共享的嵌入用于循环神经网络中词表征的方法。我们将词汇表中的所有词放入一个表中,每一行都与一个向量关联,每一列都与另一个向量关联。这样我们就能够通过两个组件来表示一个词:对应的行向量和列向量。因为该表中同一行具有相同的行向量,同一列具有相同的列向量,所以我们仅仅需要 2p|V|个向量来表示带有|V|个词的词汇表,这样可以大幅度减少模型体积(相比而言,vanilla 方法需要|V|个不同的向量)。同时,由于模型尺寸的减小,RNN 模型的训练速度将会显著加快。因此,直播,我们将这一新算法称为 LightRNN,以表示模型的小尺寸和极高的训练速度。这种方法的最大技术难题是如何将词合适地分配到表中。

  

【j2开奖】学界 | 微软重磅论文提出LightRNN:高效利用内存和计算的循环神经网络

LightRNN(左)对比常规 RNN(右)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容