参与:吴攀、李亚洲、蒋思源 文本特征提取是自然语言处理的核心问题之一,近日,加拿大滑铁卢大学的 Vineet John 在 arXiv 发布了一篇关于用于文本特征提取的神经网络技术的综述论文。机器之心对该论文进行了编译介绍,论文原文可点击文末「阅读原文」查阅。 https://arxiv.org/abs/1704.08531 本论文的目标是促进有关使用神经网络架构的文本特征提取技术的讨论。本论文中所讨论的研究问题关注的是当前最佳的神经网络技术,atv,它们已经在语言处理、语言生成、文本分类和其它计算语言学任务中被证明是有用的工具。 1 动机 目前基于文本的特征提取所使用的大部分方法都依赖于相对简单的统计技术。比如说,n-gram 这样的词共现模型或 TF-IDF 这样的词袋模型。 本研究项目的动机是识别和调查使用神经网络的技术,并将它们与传统文本特征提取模型放在一起来进行研究,以展示它们方法上的不同。 文本特征提取可以用于多种不同的应用,包括但不限于:无监督语义相似度检测、文章分类和情感分析。 本项目的目标是记录使用神经网络从文本数据中进行特征提取这一领域的不同之处、优点和缺点。另外还描述了这些技术随时间的演化。 本报告可被工程师用作快速查询表,可用来寻找构建文本分类的方法或回归流程,正如在第 15 节讨论的那样,可用于将用例对应到特定的特征提取实现上。 2 研究问题 问题 1:用于从文本中提取特征的相对简单的统计技术是什么? 问题 2:使用神经网络而非这些简单方法是否有什么固有的好处? 问题 3:相对于使用简单的方法,使用神经网络有怎样的权衡? 问题 4:在性能和准确度上,这些不同的技术之间有怎样的差异? 问题 5:在哪些用例中,这些权衡比神经网络的好处更重要? 3 方法 在第 2 节中列出的研究问题将通过调查一些这个主题的重要概述论文来解决 (Goldberg, 2016)(Bengio et al., 2003)(Morin and Bengio, 2005)。也会研究这个领域一些有突破性的研究论文,其中包括词嵌入 (Mikolov et al., 2013a)(Mikolov et al., 2013b)(Mikolov et al., 2013c). 除此之外,还将调查一些更不明显的特征提取方法,包括类似词性标注、词块、命名实体识别和语义角色标注等任务 (Socher et al., 2011)(Luong et al., 2013)(Maas et al., 2015)(Li et al., 2015)(Collobert et al., 2011)(Pennington et al., 2014). 4 背景 本节在计算语言学领域提供了关于这一任务的高层面的背景解读。 4.1 词性标注(Part-of-Speech Tagging) 词性标注的目标是用一个单独的标签标记每一个词,该标签表示了其句法作用,比如名词、动词、形容词等。 最好的 POS 标注器基于在文本窗(windows of text)上训练的分类器,然后在推理阶段再被送入一个双向解码算法。 总体来说,模型类似于一个双向依存性网络(bi-directional dependency network),而且可以使用多种方法进行训练,其中包括支持向量机和双向 Viterbi 解码器。 4.2 词块(Chunking) 词块的目标是通过名词或动词短语等句法成分来标记句子的分段。其也被称为浅层句法分析(shallow parsing),可以被看作是词性标注在短语层面(而非词层面)的泛化。 词块的实现通常需要一个底层的 POS 实现,然后这些词再被组合起来或通过连接(concatenation)进行分块。 4.3 命名实体识别(Named Entity Recognition) NER 将一个句子中的基本元素标注到类别上,比如 PERSON 或 LOCATION。 训练 NER 分类器的特征包括 POS 标签、CHUNK 标签、前缀和后缀以及被标记实体的大型词典。 4.4 语义角色标注(Semantic Role Labeling) SRL 的目标是为句子的句法成分分配语义角色。 当前最佳的 SRL 系统由多个阶段组成:产生一个解析树,识别哪个解析树节点表示了给定动词的参数,最后分类这些节点来计算对应的 SRL 标签。 SRL 系统通常会详细给出多个特征,比如词性和词的句法标签及在树中的节点、该动词在解析树中的句法路径、该解析树中的节点是否是名词或动词短语等的一部分。 5 文档向量化 (责任编辑:本港台直播) |