本文通过对于远程监督方法的缺陷分析,提出了一种基于关系短语的实体识别方法。同时,还提出了一个领域无关的生成relation phrase和entity mention。通过将关系短语的聚类和实体类型的识别联合建模,可以在解决实体歧义和上下文问题上发挥很大的作用,而且可以根据entity mention的surface name和relation phrase预测关系类型。同时,我个人认为,将实体识别和关系识别进行联合建模可以起到一个相互促进的作用,而且可以很好的避免在这两个任务当中引入深度语法分析的工具如依存、句法分析等,减少误差积累和领域依赖性。未来两种任务结合依旧是一个很好的研究方向和热点。 Bootstrapped Text-level Named Entity Recognition for Literature作者 Julian Brooke,Timothy Baldwin,Adam Hammond 单位 English and Comparative Literature San Diego State University Computing and Information Systems The University of Melbourne 关键词 NER,Brown clustering,Text-level context classifier 文章来源 ACL2016 问题 在无标注数据的情况下,对Literature做命名实体识别 模型 模型主要分为四个部分: 1、Corpus preparation and segmentation 使用GutenTag tool对语料做基本的名称切分 2、Brown clustering 在预先切分好的预料上做Brown clustering。根据Brown clustering的聚类中的每个类的rank值,将聚类结果分成三个类别(PERSON,LOCATION,catch- all category)并将其作为Bootstrap的种子进行训练。 3、Text-level context classifier 为了解决Brown clustering聚类结果可能出现的一些confusion,引入了Text-level context classifier的思想。构建名称特征向量,将种子集数据放到LR模型中进行训练,得到分类模型。 4、Improved phrase classification 为解决模型对短语名词分类不准确问题,引入了改进的短语名称分类方法,在LR模型得到的p(t|r)值的基础上进一步对其优化得到修正的p’(t|r) ,修正方法如下:
资源 1、dataset:https://www.gutenberg.org 2、GutenTag tool: 相关工作 在Literature上做NER任务的工作包括: 1、(He et al., 2013)character speech identification 2、(Bamman et al., 2014)analysis of characterization 3、(Vala et al., 2015)character identification 4、(Vala et al. 2015)character identification deal the multiple aliases of the same character problem 简评 本文的创新点在于,使用了无监督学习模型对特定领域(fiction)知识做NER,并取得了很好的效果。但是本文方法主要研究特定领域知识的NER,因此本方法使用在跨领域跨语言的NER识别任务中并不能达到很好的效果,方法具有一定的局限性。 Recognizing Named Entities in Tweets作者 Xiaohua Liu, Shaodian Zhang, Furu Wei, Ming Zhou 单位 Harbin Institute of Technology, Shanghai Jiao Tong University, Microsoft Research Asia 关键词 Named Entity Recognition, Semi-Supervised Learning 文章来源 ACL, 2011 问题 如何建立一种半监督学习的模型对使用非正式语言的tweet进行命名实体识别? 模型 (责任编辑:本港台直播) |