命名实体识别是自然语言处理中一个非常基础的工作,是自然语言处理中关键的一个环节。监督学习是解决命名实体识别任务的一个基本手段,但标注数据的获取成本往往会比较高,本期PaperWeekly将带大家来看一下如何通过半监督或者无监督的方法来做命名实体识别任务。本期分享的4篇Paper Notes分别是: 1、Building a Fine-Grained Entity Typing System Overnight for a New X (X = Language, Domain, Genre), 2016 2、ClusType: Effective Entity Recognition and Typing by Relation Phrase-Based Clustering, 2015 3、Bootstrapped Text-level Named Entity Recognition for Literature, 2016 4、Recognizing Named Entities in Tweets, 2011 Building a Fine-Grained Entity Typing System Overnight for a New X (X = Language, Domain, Genre)作者 Lifu Huang, Jonathan May, Xiaoman Pan, Heng Ji 单位 Rensselaer Polytechnic Institute, Information Sciences Institute, Rensselaer Polytechnic Institute 关键词 Entity Recognition and Typing, Unspuversied 文章来源 arXiv, 2016 问题 细粒度的实体识别是这几年比较流行的工作。传统的方法是需要先预定义一组实体所属类型,随后使用大量的标注数据来训练多分类器。本文针对需要标注数据的问题,开奖,提出了一个使用非监督学习的思路来解决这个问题 模型 本文中方法的架构如下图:
1)通过entity mention的语料,构建entity mention的context 2)随后构建知识库的表达 3)通过知识库和entity mention进行连接 4)将连接后的数据学习三种表达 a general entity distributed representation a specific context representation a knowledge representation 其中entity distributed representation主要是通过上下文来表达实体,而 a specific context representation主要是表达一些local feature和一些语言结构的特征,a knowledge representation主要是用来模拟领域相关的知识。最后算法通过一个层次聚类算法来获取entity mention可能的分类信息 1、General Entity Representation entity mention的表达作者主要是用了Skip-gram model通过大量的语料来训练,最终可以得到每个entity mention的表达。这个思路的好处是让两个entity mention属于同一类型时,entity mention的上下文会比较相似,进而可以得到相似的分布式表达 2、a specific context representation 为了得到a specific context representation,本文使用AMR((Abstract Meaning Representation)语法或者句法结构的上下文。 其生成的结构如下图所示。根据给定的entity mention以及对应关系,首先选择entity mention可能的类型,如关系为ARG0 capital of ARG1则ARG0可能的类型则为国家,同理ARG1可能的类型为城市。随后将所有entity mention可能的候选类型通过一个encoder-decoder模型得到一个单一的表达
3、Knowledge Representation 由于entity mention的类型在很多情况是非常依赖领域相关的知识库的。因此本文也对知识库进行建模,从而推断出在某个相关领域下更细粒度的实体。为例计算Knowledge Representation,首先对entity mention跟知识库做连接。随后根据链接的实体和实体对应的属性以及类型信息构建一个基于权重的二步图。构建好的二步图根据 Large-scale information network embedding算法来对这个二步图训练并得到其分布式表达。 最后对于一个entity mention,将该entity mention对应的三种表达General Entity Representation,a specific context representation和Knowledge Representation整合,通过一个hierarchical X-means clustering算法得到这个entity mention在一个分类体系下的type信息。最终完成识别实体类型的信息。 简评 细粒度的实体识别是这几年比较流行的工作。传统的方法是需要先预定义一组实体所属类型,随后使用大量的标注数据来训练多分类器。这篇文章的创新点是提出了一个非监督学习的算法来识别实体所属的type,这种非监督的方法在缺少标注数据的垂直领域具有一定的实用性。本文的思路主要是通过文章中的entity mention跟知识库进行连接,通过文章的上下文学习entity mention的分布式表达,同时通过学习知识库中实体和类型的分布式表达。最后将这些表达送入一个层次聚类算法,entity mention得到的embedding和相似的知识库符号embedding会聚到同一个聚类下。进而通过非监督的方法对entity mention打上type的标签。实验证明本文的方法可以跟监督学习起到类似的效果。 ClusType: Effective Entity Recognition and Typing by Relation Phrase-Based Clustering作者 Xiang Ren, Ahmed El-Kishky, Chi Wang, Fangbo Tao, Clare R. Voss, Heng Ji, Jiawei Han 单位 University of Illinois at Urbana-Champaign, Microsoft Research, Redmond, Rensselaer Polytechnic Institute, Army Research Laboratory, Adelphi 关键词 Entity Recognition and Typing, Relation Phrase Clustering 文章来源 KDD, 2015 问题 (责任编辑:本港台直播) |