拥有实值特征表征的最大特点之一是能够计算类比问题 a : b; c : d 的答案,其中 d 是未知的。使用连续空间词表征,这可以变得像计算 y = xb ? xa + xc 一样简单,其中 y 是该模型所能计算出 d 的最佳估计。如果在被训练的词之中没有向量,则 y == xw,那么最近邻的向量表征可以使用余弦相似度估计出来: 11 使用用于形态学的递归神经网络的更好的词表征(Better Word Representations with Recursive Neural Networks for Morphology) 目标:本论文旨在解决复杂词和罕见词的向量表示中的不准确问题,这个问题被认为是由形态上相关的词之间的关系的缺乏而导致的(Luong et al., 2013)。 描述: 该论文的作者将 RNN 中的每个词素(morpheme)都看作是一个基本单元,并根据它们的词素为形态复杂的词在工作过程中构建表征。通过训练一个神经语言模型(NLM)和用于复杂词的集成 RNN 结构,他们使用语境信息学习词素语义及它们的组合性质。 讨论了这样一个问题:如果一开始罕见词的向量表征就是不准确的,那么 xapples ? xapple ≈ xcars ? xcar 这样的 Word2Vec 句法关系就不是正确的。 morphoRNN 运行在词素水平上,而非词水平上。例子可见图 2. 父词(parent word)是通过将词干向量和词缀向量结合起来创造的,如式 1 所示。 图 2:morphoRNN 其成本函数是关于新构建的表征 pc(xi) 和参考表征 pr(xi) 之间的平方欧几里德损失(squared Euclidean loss)。该损失函数见式子 2. 对语境敏感和不敏感的 Morphological RNN 版本都在本论文中得到了描述。 类似于经典的 RNN,该网络也是通过在一个前向通过的架构中计算激活函数和反向传播误差来进行训练的。 这个 RNN 模型的表现优于其它大多数自然语言处理模型,可以被用于补充词向量。 12 向量空间中词表征的有效估计(Efficient Estimation of Word Representations in Vector Space) 目标:本论文的主要目标是介绍可用于从数十亿词的巨型数据集(并且使用了数以百万计的词汇)中学习高质量词向量的技术(Mikolov et al., 2013a)。 挑战:在该神经网络的全连接输出层出现的复杂度占用了大部分计算。几种被认为可以改善这种情况的方法是使用 softmax 输出激活单元的层次化版本,或者避免在最后一层避免执行归一化。 描述: 本论文提出的思想基于 (Bengio et al., 2003) 之前提出的思想。 其目标是得到具有词的句法和语义特征的高质量词嵌入,使得能够使用代数运算来表示其在向量空间中的距离,比如 man ? woman = king ? queen 或 tell ? told = walk ? walked 这里的训练时间是随被学习的特征向量的维度而增长的,而不是训练数据的量。 该方法试图找到值的分布式向量表征,而非使用 LSA 和 LDA 等方法得到的值的连续表征。 该模型是使用随机梯度下降和反向传播训练的。 该 RNN 模型在本质上有对复杂模式的句子结构的更好的表征,而无需指定上下文的长度。 为了实现数据的分布式训练,该模型中使用了多个 DistBelief 框架。使用了 Adagrad 来执行异步梯度下降。 本论文概念化了两种用于基于语境的词向量训练的不同模型,这两者都是词的连续的分布式的表征,它们分别是:1)连续词袋模型(CBOW):该模型使用词的上下文(即这个词前后的词)来预测当前词;2)skip-gram 模型:该模型使用当前词来预测其所处的上下文。如图 3 所示: 图 3:CBOW 和 Skip-gram 模型 (责任编辑:本港台直播) |