文档向量化可被用来将文本内容转换成一个数值向量表征,该表征可被用作特征,然后其可被用来训练机器学习模型。本节探讨了几种用来计算这种特征向量的统计学方法 (John and Vechtomova, 2017)。 5.1 n-gram 模型 n-gram 是来自给定文本或语音序列的 n 项连续序列。给定一个完整的文档语料库,每个元组 n 个 gram,字符和词都被表示为一个比特向量(bit vector)中一个特定的比特;在与一个文本体(body of text)聚合时,其会形成一个稀疏的对该文本的向量化表征,采用了 n-gram 共现的形式。 5.2 TF-IDF 模型 即项频率-逆文档频率(term frequency - inverse document frequency),这是一种数值统计方法,目的是反映一个词对集合或语料库中的一个文档的重要程度 (Sparck Jones, 1972)。TF-IDF 的值会随一个词在该文档中所出现的次数的增长而线性增长,但也会被该词在该语料库中的出现频率而抵消,这有助于调节那些在一般情况下都常会出现的词。这是一个词袋模型,而且并不保存词的顺序。 5.3 段落向量模型(Paragraph Vector Model) 段落向量模型是由一个无监督学习算法构成的,其可以为可变长度的文本(比如句子或文档)学习到固定大小的向量表征(Le and Mikolov, 2014)。该向量表征可被学习用来预测从段落中采样的上下文中的周围的词。两种不同的实现都已经在社区中取得了突出表现: Doc2Vec:一个用 Gensim 实现的 Python 库:https://radimrehurek.com/gensim/models/doc2vec.html FastText:一个用 C++ 做的独立实现 (Bojanowski et al., 2016) (Joulin et al., 2016). 6 用于自然语言处理的神经网络模型入门(A Primer of Neural Net Models for NLP(Goldberg, 2016)) 全连接的前馈神经网络是非线性学习器,其可在使用了线性学习器的地方随时替换。 在实验结果上观察到的高准确度是由这种非线性与预训练的词嵌入所共同导致的。 多层前馈网络可以在情感分类和事实性问答上实现有竞争力的表现。 卷积和池化架构在许多任务上都得到了有潜力的结果,其中包括:文档分类、短文本归类、情感分类、实体之间关系类型分类、事件检测、释义识别、语义角色标注、问答、基于评论预测电影票房收入、建模文本兴趣和建模字符序列与词性标签之间的关系。 卷积和池化架构让我们可以将任意大的项编码成固定大小的向量,该向量捕获了它们最突出的特征,但这样它们也牺牲了大多数的结构信息。 循环和递归网络允许在使用序列和树的同时保留结构信息。 循环模型已经表明可以为语言建模得到非常强大的结果,另外还可用于序列标注、机器翻译、依存句法分析、情感分析、噪声文本规范化、对话状态跟踪、响应生成和建模字符序列与词性标签之间的关系。 递归模型已被证明能在 constituency 和依存句法分析再排序、对话解析、语义关系分类、基于解析树的政治意识形态检测、情感分类、目标依赖情感分类和问答方面得到当前最佳和近乎最佳的结果。 卷积网络已被观察到可有效地用于归纳相关任务,在语言建模任务上能得到与循环/递归网络同样的好效果。 7 一种神经概率语言模型(A Neural Probabilistic Language Model) 目标:如果了解一个句子的基本结构,那么其就能通过可互换短语替代原句的一部分而创造一个新句子(Bengio et al., 2003)。 挑战:主要的瓶颈是计算输出层的激活函数,因为该输出层是一个由 softmax 激活函数组成的全连接层。 描述: 本论文在优化算法方面的主要贡献是数据并行处理(不同的处理器处理不同的数据子集)和共享内存异步处理器的使用。 论文作者们提出通过学习词的分布式表征克服维度灾难,这种词的分布式表征允许每一个训练句子通过表示相邻句语义的指数反馈给模型。 令语言建模和其他学习问题变得困难的根本问题在于维度灾难。这在构建拥有许多离散随机变量(如句子中的词)之间的联合分布式时特别明显。 当前最佳的结果通常由使用 trigrams 获得的。 可以通过共享参数的多层神经网络替代现有句子的相似语义的语言结构而生成新句子。 (责任编辑:本港台直播) |