这篇论文同样是针对 Distant Supervision中噪声数据较多的问题,提出基于 attention 机制的卷积神经网络模型。这篇论文采用了第一篇论文中的方法作为基准系统,论文作者认为多示例学习的方法虽然缓解了噪声数据较多的问题,开奖,但是由于只采用每个包中置信度最高的样例作为训练数据,在滤除噪声的同时也损失了很多有用信息。其模型框架如下图所示: 图中,m1, m2, m3,…,mc 表示的是两个实体对应的训练句子集合,ri 表示的是句子 mi 经过 CNN 编码池化后的向量,ai 表示的是训练句子样例的权重。该框架首先通过 CNN 编码后得到句子向量 ri,再通过计算 ri 与关系 r 向量的相似度来赋予 ri 在整个句子集合中的权重,其计算公式如下: xi 表示的是句子的向量化表示,A 是匹配的参数,k 表示的是关系数目。最后在各句子加权取和后通过 softmax 分类器得到分类结果。该框架采用的编码器是第一篇文章中提出的 PCNN 网络。 — 03 — Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Deions AAAI2017 论文链接:
这篇文章同样针对数据噪声问题提出基于注意力机制的卷积神经网络模型,与第二篇文章的主要不同点在于 attention 权值的计算方法。该文章利用“实体-实体=关系”的方法表示实体间关系,同时利用卷积神经网络捕获实体描述页面特征,丰富实体表示,最后通过计算实体间关系与句子间的相似度赋予句子不同的权重。其模型图如下所示: 图a是模型的信息编码部分,与前两篇文章基本一致。图 b 中 bi 表示的是经过图 A PCNN 网络编码后得到的句子向量。在 attention 权值计算部分,利用一个简单的卷积神经网络对实体描述页面编码抽取特征进行向量化表示,其目标输出是该实体的词向量表示(该部分网络结构未没有在图中表示出来)。最后通过目标函数 min L 将实体描述页面信息作为限制条件与多示例学习方法结合来训练关系抽取模型。 ri 表示的是实体间关系,Bi 表示的是第 i 个训练包。ei 表示的是实体的词向量,di 表示的是实体描述页面通过卷积网络编码后得到的实体描述向量。 (责任编辑:本港台直播) |