其实验结果表明该 CBOW 和 Skip-gram 模型始终优于当时的最佳模型。其还观察到,当达到了一定程度后,再继续增加数据的维度和规模会开始带来反效果。 13 词与短语及它们的组合的分布式表征(Distributed Representations of Words and Phrases and their Compositionality) 目标:这篇论文基于 Word2Vec skip-gram 模型的思想,并提出了关于词嵌入的质量以及训练过程的加速的优化。它也提出了一种可替代层次 softmax 最后层的方法,被称为负采样(negative sampling)(Mikolov et al., 2013b)。 描述: 其建议的一种优化方法是下采样训练集的词,以实现模型训练的速度提升。 给定一个训练词序列 [w1, w2, w3, ..., wT ],该 skip-gram 模型的目标是最大化其平均对数概率,如式子 3 所示: 其中 c 是窗口,即围绕被训练的当前词周围的上下文。 正如 (Morin and Bengio, 2005) 中介绍的那样,一种计算高效的全 softmax 的近似是层次 softmax。该层次 softmax 使用了输出层一个二叉树表征,其中 W 词是其枝叶,并且对每一个节点都明显地表示了其子节点的相对概率。这些就定义了一种随机游走(random walk),可将概率分配给词。 该论文的作者使用了二值霍夫曼树(binary Huffman tree),其可以将短码分配给常见的词,从而实现快速训练。据观察,在此之前,将词按它们出现的频率分组可以很好地用作基于神经网络的语言模型的加速技术。 噪声对比估计(NCE)是层次 softmax 的一种替代方法,其设想一个好模型应该可以根据 logistic 回归的方法来区分数据和噪声。 为了克服罕见词和常见词之间的不平衡,我们使用了一个简单的下采样方法:训练集中的每一个词都按照以下公式计算出的概率被丢弃: 这类似于网络中神经元的 dropout,尽管在统计学上,其更类似于使用这种方法从语料库中移除常见词。 丢弃常出现的词可以减少计算和内存成本。 可以使用 unigram 和 bigram 词频计数将单独的词合并成短语,如下所示 学习这些分布式表征的另一个有趣的性质是:由其 skip-gram 模型学习到的词表征和短语表征表现出了一种线性结构,使得其可以使用简单的向量运算来执行准确的类推推理。 14 GloVe:用于词表征的全局向量(GloVe: Global Vectors for Word Representation) 目标:本论文提出了一种全局对数双线性回归模型(global log-bilinear regression model),其结合了该文献中两种主要模型族的优势,它们是:全局矩阵分解和局部上下文窗口方法(Pennington et al., 2014)。 描述: 尽管 LSA 这样的方法能有效地利用统计信息,但它们在词类比任务上的表现相对较差,这表明了它们次优的向量空间结构。skip-gram 这样的方法可能在词类比上表现更好,但它们在利用语料库的统计信息上表现并不好,因为它们是在分离的局部上下文窗口上训练的,而不是在全局的共现(co-occurrence)计数上训练的。 任何任意词之间的关系可以通过研究它们的共现概率与多个探针词(probe word)之间的比例来检验。 该论文的作者认为词向量学习的合适起点应该是共现概率的比例,而非概率本身。 我们可以将这种共现关系表示成以下形式: 这使得该特征矩阵可与其转置互换。 该算法中还包含了一个加法偏移: 其在计算该共现矩阵时,在避免分歧的同时又维持了 X 的稀疏性。 该论文中所得到的模型可与全局的 skip-gram 模型进行比较,而非 (Mikolov et al., 2013a) 中提出的固定窗口大小的 skip-gram 模型。 其表现似乎会随训练数据的增加而单调增加。 15 讨论 在进行了文献调查之后,本节再次回到原来的研究问题上,并根据这些原论文的实验结果和结论推导出了一些简明扼要的结论。 问题 1:用于从文本中提取特征的相对简单的统计技术是什么? 像 n-gram 这样的词频计数模型和像 TF-IDF 这样的简单词袋模型仍然是获取文本的数值向量表征的最简单的工具。 问题 2:使用神经网络而非这些简单方法是否有什么固有的好处? 使用神经网络的好处主要是它们有能力识别模糊的模式,并且可以在主题分类和句法解析树生成等许多应用领域保持灵活性。 问题 3:相对于使用简单的方法,使用神经网络有怎样的权衡? 其权衡主要考虑的是计算成本和内存使用,尽管模型复杂度也是一个因素,但基于此,神经网络可被训练学习任意复杂的生成模型。 问题 4:在性能和准确度上,这些不同的技术之间有怎样的差异? (责任编辑:本港台直播) |