本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】一周论文 | 无监督/半监督 命名实体识别(2)

时间:2016-12-11 17:07来源:668论坛 作者:118KJ 点击:
远程监督方法在特定领域的实体抽取方面存在领域扩展性差、实体歧义问题以及上下文稀缺三大问题,本文主要研究如何改进这三个问题。 模型 针对上述

远程监督方法在特定领域的实体抽取方面存在领域扩展性差、实体歧义问题以及上下文稀缺三大问题,本文主要研究如何改进这三个问题。

  模型

针对上述的三个问题,本文提出了各自对应的解决思路:只使用浅层的分析方法例如POS等解决领域独立性问题;对entity mention(token span in the text document which refers to a real-world entity)应用词形和上下文联合建模来解决歧义问题;挖掘relation phrase和entity mention的共现情况,利用relation phrase前后实体(主语和宾语)的类别来找到相同的关系,进而辅助实体类型的推断。基于上述的思路,本文提出了ClusType的方法。

ClusType的问题定义如下:给定一个特定领域的文档集合,一个实体类型集合以及一个知识库,主要完成三个任务:第一,从文档集合中抽取出候选的entity mention集合;第二,将一部分entity mention链接到知识库,作为种子entity mention集合;第三,对于剩余未完成知识链接的entity mention集合,预测每一个entity mention的对应实体类别。

根据任务的定义,整个框架也分为三个部分,分别解决这三个任务。

本文方案的具体思路如下:

1、构建关系图

关系图的基本样式如下:

  

码报:【j2开奖】一周论文 | 无监督/半监督 命名实体识别

图当中的节点主要分为三种:entity mention, surface name, relation phrase.

  图中的边的类型也有三种:entity mention和surface name的关系、surface name和relation phrase在语料中的共现情况、entity mention和entity mention的关系,表现entity mention之间的相似程度。这三个关系均是通过邻接矩阵的形式表示。

关于三种要素的确定,relation phrase的确定主要参考开放域抽取的方法,entity mention的确定方法也比较简单:首先找到固定长度的一个频繁词串集;为集合中每一个词串计算两两之间的得分,得分越高证明越需要合并;在合并的过程中,利用贪心算法,从得分最高开始合并,直到所有得分均低于某一阈值。

2、种子集合的生成

这里利用了dbpedia-spotlight工具进行entity mention到知识库的映射,只选取置信度得分高于0.8的作为有效输出。

3、实体类型推断

  目标函数如下:

  

公式共分为三部分:

  第一部分遵循实体关系共现假设:如果一个surface name经常在relation phrase前后出现,那么它的类型应该同relation phrase前后实体的类型相关。

第二部分遵循两个假设。

  假设一:如果两个relation phrase相似,那么他们前后实体的类型也应该相似;

  假设二:判断两个relation phrase相似的特征为词形、上下文和其前后实体的类型。

  因此,第二部分的作用在于根据两个假设建模一个基于joint non-negative matrix factorization的multi-view clustering.

第三部分就是建模entity mention对应实体类别、entity mention之间的关系以及引入种子集合的监督,利用一个entity mention的surface name和relation phrase对应的关系类别推断关系类型,j2直播,同时考虑到相似entity mention的一致性以及对于种子集合的预测误差函数。

  相关工作

本文主要借鉴两方面的工作,一部分是远距离监督的方法,另一部分是开放关系抽取。

  远距离监督的工作主要有:

  1、N. Nakashole, T. Tylenda, and G. Weikum. Fine-grained semantic typing of emerging entities. In ACL, 2013.

  2、T. Lin, O. Etzioni, et al. No noun phrase left behind: de- tecting and typing unlinkable entities. In EMNLP, 2012.

  3、X. Ling and D. S. Weld. Fine-grained entity recognition. In AAAI, 2012.

  开放关系抽取的工作主要有:

  1、A. Fader, S. Soderland, and O. Etzioni. Identifying relations for open information extraction. In EMNLP, 2011.

  简评

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容