本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:Salesforce AI最新研究,翻译中的情境化词向量(3)

时间:2017-08-03 02:33来源:本港台直播 作者:118开奖 点击:
注意机制回顾隐藏向量,以便决定接下来要翻译英文句子的哪一部分。它使用状态向量来确定每个隐藏向量的重要性,然后它生成一个新的向量,我们称之

注意机制回顾隐藏向量,以便决定接下来要翻译英文句子的哪一部分。它使用状态向量来确定每个隐藏向量的重要性,然后它生成一个新的向量,我们称之为情境调整状态(context-adjusted state)来记录其观察结果。

图9:注意机制使用隐藏状态和解码器状态来生成情境调整状态。

生成

生成器稍后将查看情境调整状态以确定要输出的德语单词,并且将情境调整状态传递回解码器,从而使其对已经翻译的内容与足够准确的理解。解码器重复此过程,直到完成翻译。这是一种标准的注意编码—解码器体系结构,用于学习序列的序列任务,如机器翻译。

图10:生成器使用情境调整状态来选择输出单词。

来自预训练MT-LSTM的情境向量

当训练完成后,我们可以提取已训练的LSTM作为机器翻译的编码器。我们将这个已预训练的LSTM称为MT-LSTM,并使用它来输出用于新句子的隐藏向量。当使用这些机器翻译隐藏向量作为另一个NLP模型的输入时,我们将它们称为情境向量(CoVe)。

图11:a)编码器的训练b)将其重新用作新模型的一部分

用CoVe进行实验

我们的实验探索了使用预训练的MT-LSTM生成用于文本分类和问答模型的CoVe的优点,但CoVe可以与任何表征其输入的模型一起作为向量序列。

分类

我们研究两种不同类型的文本分类任务。第一种,包括情绪分析和问题分类,具有单一的输入。第二种仅包括蕴涵分类(entailment classification),有两个输入。对于这两种,我们使用双集中分类网络(Biattentive Classification Network)。如果只有一个输入,我们将其复制,假装有两个,让模型知道避免运行冗余计算。而且我们不需要了解BCN理解CoVe的细节以及使用它们的好处。

图12:一个双集中分类网络。

问答

我们依靠动态关注网络(Dynamic Coattention Network)进行问答实验。为了分析MT数据集对模型学习其他任务性能的影响,我们使用一个稍微修改过的DCN,但实验测试了整个CoVe和CoVe与字符向量的总体有效性,我们使用udpated DCN +。

表1:我们实验中数据集和任务的总结。

GloVe+CoVe

对于每个任务,我们用不同的方式来表征输入序列。我们可以将每个序列表示为我们训练的随机初始化的词向量序列,我们可以使用GloVe,或者我们可以将GloVe和CoVe一起使用。 在最后一种情况下,我们采用GloVe序列,通过预训练的MT-LSTM运行它,以获得CoVe序列,并且我们将CoVe序列中的每个向量与GloVe序列中的相应向量相加。不管是MT-LSTM还是GloVe都不是作为分类或问答模型的一部分进行训练的。

实验结果表明,在随机初始化词向量和单独使用GloVe的情况下,包括CoVe以及GloVe在内总是能够提高其性能。

图13:通过使用GloVe和添加CoVe来验证性能是否提高。

更多MT→更好CoVe

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容