本期 PaperWeekly 将继续分享和解读 3 篇 2016 年最值得读的自然语言处理领域 paper,分别是: 1. LightRNN Memory and Computation-Efficient Recurrent Neural Network 2. Text understanding with the attention sum reader network 3. Neural Machine Translation with Reconstruction ? LightRNN: Memory and Computation-Efficient Recurrent Neural Networks 论文链接 https://papers.nips.cc/paper/6512-lightrnn-memory-and-computation-efficient-recurrent-neural-networks.pdf 作者 Xiang Li, Tao Qin, Jian Yang, Tie-Yan Liu 单位 Nanjing University of Science and Technology & Microsoft Research Asia 关键词 LightRNN, Word Embedding, Language Model 文章来源 NIPS 2016 问题 在词典规模比较大的情况下,传统 RNN 模型有着模型大训练慢的问题,本文提出的 LightRNN 模型通过采用两个向量组合在一起表示一个词的方法,降低实际训练向量的数目,进而解决上述问题。 模型 LightRNN 的核心思想是将一个词用两个共享的向量来表示。如下图所示,我们将所有的词分配到下面一个二维词表中,表中第i行所有词语的对应的行向量为 x(i,r),第 j 列词语对应的列向量为 x(j,c)。故第 i 行第 j 列的词语由 x(i,r)和 x(j,c)两部分共同表示,该方法在论文中被称为两部共享嵌入(2-Component shared embedding)。 每一行词语的行向量,每一列词语的列向量均是共享的,因此对于大小为 |V| 的词典,只需要 2√|V| 个不同的向量就可以表示所有词语,这大大缩小了模型的体积,加快模型的训练速度。 通过上面的介绍我们知晓了可以通过两个向量来表示一个词语,接下来将介绍如何将这种新奇的词表示方法引入到 RNN 模型中。本文的想法其实非常简单,如下图所示,将一个词的行向量和列向量按照顺序分别送入 RNN 中即可。以本文中的语言模型任务为例,为了计算下一个词是 w_t 的概率,我们需要先根据前文计算下一个词的行向量是 w_t 的行向量的概率,再根据前文和w_t 的行向量计算下一个词的列向量是w_t 的列向量的概率。行向量概率和列向量概率的乘积便是下一个词是w_t 的概率。 现在我们已经清楚了这种新颖的词语表示方法以及如何将这种词语表示方法应用到语言模型中。但仍然存在一个关键的问题,即如何生成上图中的二维词表。本文提出了一种 Bootstrap 过程的方法,具体步骤如下:1. 冷启动,随机将词语分配到二维词表中。2. 训练 Embedding 到 LightRNN 收敛为止。 3. 固定上述训练好的 Embedding,再重新分配词语在表中的位置来最小化损失函数。然后回到步骤 2。(该过程可以转化成最小权完美匹配问题,j2直播,文中采用相关论文中的近似算法来解决该问题。) 通过一些在 ACLW 和 BillionW 数据集上的语言模型实验,可以观察到相比之前的语言模型,LightRNN 在训练速度上有两倍的提升,模型缩小了数十倍,且实验效果还略有提升。 资源 [ACLW] https://www.dropbox.com/s/m83wwnlz3dw5zhk/large.zip?dl=0 [BillionW]
相关工作 语言模型相关工作 1. Blackout: Speeding up recurrent neural network language models with very large vocabularies 2. Character-aware neural language models **本文采用的最小权完美匹配问题的近似算法** Linear time 1/2-approximation algorithm for maximum weighted matching in general graphs 简评 本文提出的 LightRNN 方法大幅度提升了模型的训练速度,缩小了模型的大小,对于苦于模型训练过慢、显存不足的人来说是一大福音。此外,本文提出的模型在一定程度上可以学到词语之间的一些共享信息,进而提升模型的效果。目前本文的方法仅在语言模型上进行了实验,显然此方法同样适合扩展到机器翻译、问答等任务上,期待该模型在其他任务上的应用。 完成人信息 王宝鑫,科大讯飞,[email protected] 实录 (责任编辑:本港台直播) |