在论文摘要中,他们写道:“在WikiText-103上,我们创造了新的记录。同时,在谷歌 Billion Word 基准上,我们也获得了单个 GPU 的最佳表现。在设置中,延迟非常重要,比起递归机制的基线,我们的模型获得了一个维度的加速,因为计算能够多次并行运行。据我们所知,这是此类的任务中,一个非递归性的方法首次在性能上超越了向来强大的递归模型。” 测试结果 研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word(GBW)进行测试,并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下:
上图是门卷积神经网络(GCNN)模型与LSTM和RNN 模型在 Billion Word(GBW)数据集基准上进行测试的结果。在单个GPU的情况下,GCNN的性能做到了最好。并且,据Facebook 研究者在论文中介绍,他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元,LSTM每层拥有1024个单元。在与多GPU 进行对比时,只有超大型LSTM模型在性能上比GCNN好。但是,超大型LSTM -2048 (代表层数)使用了32个GPU,训练时间为3周,GCNN只使用1个GPU,训练时间1周。
另一个横向对比是在WikiText-103 上进行的,这个语言建模数据库包含了超过1亿个从Wikepedia 上被标注为Good 或者Featured的文章中提取的字符(tokens),另外,数据库中还包含了20万个单词的词汇表。 在这个数据集进行测试时,输入的序列是一篇完整的Wikipedia 文章,而不仅仅是一句话。上图的结果表明。GCNN 模型在这个问题上的性能也比LSTM要好得多。
上图是WikiText-103(左)和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。可以看到,门线性单元(GLU,图中红线)在实现向更低的复杂性转换的过程是最快的。 被超越的 LSTM LSTM 和递归神经网络能捕捉长期的依存性,在被提出后便以席卷之势迅速成为自然语言处理的奠基石。LSTM可以记忆不定时间长度的数值,区块中有一个Gate能够决定input是否重要到能被记住及能不能被输出output。
LSTM 模型的基本架构,其中中间四个相互交互的层,是整个模型的核心 此外,由于LSTM 适用于处理和预测时间序列中间隔和延迟非常长的重要事件。因而在自然语言理解(NLU)上有着重要作用。 LSTM 目前在行业内有着广泛的应用,范围包括但不限于:不分段连续手写识别上、自主语音识别、机器翻译等等。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。 2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用 TIMIT 自然演讲数据库达成17.7%错误率的纪录。 研究者的自我评价 在论文的最后,研究者总结说,我们(Facebook)发布了一个卷积的神经网络,使用一个新的门机制来为语言建模。与递归神经网络相比,我们的方法建立了一个输入词语的层级表征,让它可以更好地捕获长距离的依存性(dependencies),这和语言学中语法形式体系中的树结构分析的思路很像。由于特征通过的是固定数量的神经网络层,并且是非线性的,这种相似的属性够产生学习。这和递归神经网不同,递归神经网络中,处理步骤的数量根据词在输入中的位置会有所不同。 结果显示,我们的门卷积神经网络在WikiText-103 上打破了记录,在更大型的谷歌Billion Word 基准中,单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。 不谈取代,我们谈谈优化 正如上文中专家的分析,在语言建模上,现在卷积神经网络和递归神经网络各自有不同优势。虽然在这一研究中卷积神经网络在性能上表现出了对递归神经网络,尤其是LSTM的全面超越,但是,现在谈取代还为时尚早。 (责任编辑:本港台直播) |