码报:【j2开奖】一周论文 | 无监督/半监督命名实体识别(2)_本港台直播_J2开奖直播

远程监督方法在特定领域的实体抽取方面存在领域扩展性差、实体歧义问题以及上下文稀缺三大问题，本文主要研究如何改进这三个问题。

　　模型

针对上述的三个问题，本文提出了各自对应的解决思路：只使用浅层的分析方法例如POS等解决领域独立性问题；对entity mention(token span in the text document which refers to a real-world entity)应用词形和上下文联合建模来解决歧义问题；挖掘relation phrase和entity mention的共现情况，利用relation phrase前后实体（主语和宾语）的类别来找到相同的关系，进而辅助实体类型的推断。基于上述的思路，本文提出了ClusType的方法。

ClusType的问题定义如下：给定一个特定领域的文档集合，一个实体类型集合以及一个知识库，主要完成三个任务：第一，从文档集合中抽取出候选的entity mention集合；第二，将一部分entity mention链接到知识库，作为种子entity mention集合；第三，对于剩余未完成知识链接的entity mention集合，预测每一个entity mention的对应实体类别。

根据任务的定义，整个框架也分为三个部分，分别解决这三个任务。

本文方案的具体思路如下：

1、构建关系图

关系图的基本样式如下：

码报:【j2开奖】一周论文 | 无监督/半监督命名实体识别

图当中的节点主要分为三种：entity mention, surface name, relation phrase.

　　图中的边的类型也有三种：entity mention和surface name的关系、surface name和relation phrase在语料中的共现情况、entity mention和entity mention的关系，表现entity mention之间的相似程度。这三个关系均是通过邻接矩阵的形式表示。

关于三种要素的确定，relation phrase的确定主要参考开放域抽取的方法，entity mention的确定方法也比较简单：首先找到固定长度的一个频繁词串集；为集合中每一个词串计算两两之间的得分，得分越高证明越需要合并；在合并的过程中，利用贪心算法，从得分最高开始合并，直到所有得分均低于某一阈值。

2、种子集合的生成

这里利用了dbpedia-spotlight工具进行entity mention到知识库的映射，只选取置信度得分高于0.8的作为有效输出。

3、实体类型推断

　　目标函数如下：

公式共分为三部分：

　　第一部分遵循实体关系共现假设：如果一个surface name经常在relation phrase前后出现，那么它的类型应该同relation phrase前后实体的类型相关。

第二部分遵循两个假设。

　　假设一：如果两个relation phrase相似，那么他们前后实体的类型也应该相似；

　　假设二：判断两个relation phrase相似的特征为词形、上下文和其前后实体的类型。

　　因此，第二部分的作用在于根据两个假设建模一个基于joint non-negative matrix factorization的multi-view clustering.

第三部分就是建模entity mention对应实体类别、entity mention之间的关系以及引入种子集合的监督，利用一个entity mention的surface name和relation phrase对应的关系类别推断关系类型，j2直播，同时考虑到相似entity mention的一致性以及对于种子集合的预测误差函数。

　　相关工作

本文主要借鉴两方面的工作，一部分是远距离监督的方法，另一部分是开放关系抽取。

　　远距离监督的工作主要有：

　　1、N. Nakashole, T. Tylenda, and G. Weikum. Fine-grained semantic typing of emerging entities. In ACL, 2013.

　　2、T. Lin, O. Etzioni, et al. No noun phrase left behind: de- tecting and typing unlinkable entities. In EMNLP, 2012.

　　3、X. Ling and D. S. Weld. Fine-grained entity recognition. In AAAI, 2012.

　　开放关系抽取的工作主要有：

　　1、A. Fader, S. Soderland, and O. Etzioni. Identifying relations for open information extraction. In EMNLP, 2011.

　　简评

(责任编辑：本港台直播)

码报:【j2开奖】一周论文 | 无监督/半监督 命名实体识别(2)

码报:【j2开奖】一周论文 | 无监督/半监督命名实体识别(2)