本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:关于远程监督,我们来推荐几篇值得读的论文

时间:2017-08-20 04:39来源:天下彩论坛 作者:开奖直播现场 点击:
一周论文 | 关于远程监督,我们来推荐几篇值得读的论文 2017-08-19 15:21 来源:机器之心 line 原标题:一周论文 | 关于远程监督,我们来推荐几篇值得读的论文 说起关系抽取,就不得不提

一周论文 | 关于远程监督我们推荐几篇值得读的论文

2017-08-19 15:21 来源:机器之心 line

原标题:一周论文 | 关于远程监督我们推荐几篇值得读的论文

说起关系抽取,就不得不提远程监督(distant supervision),将已有的知识库(比如 freebase)对应到丰富的非结构化数据中(比如新闻文本),从而生成大量的训练数据,从而训练出一个效果不错的关系抽取器。提到远程监督,下面的这篇工作就不得不提:

[1] Distant supervision for relation extraction without labeled data

本文并非第一篇提出远程监督概念的 paper,但是第一个将远程监督概念应用到关系抽取任务中,并且提出了一个著名的假设。

If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.

这个假设非常的大,其实很多的共现 entities 都没有什么关系,仅仅是出现在同一个句子中;而有的 entities 之间的关系其实并不仅仅只有一种,可能有多种,直播,比如奥巴马和美国的关系,可能是 born in,也可能是 is the president of 的关系。

基于这个假设条件下的关系抽取工作通常都存在两个明显的弱点:

1. 基于文献 [1] 给出的假设,训练集会产生大量的 wrong labels,比如两个实体有多种关系或者根本在这句话中没有任何关系,这样的训练数据会对关系抽取器产生影响。

2. NLP 工具带来的误差,比如 NER,比如 Parsing 等,越多的 feature engineering 就会带来越多的误差,在整个任务的 pipeline 上会产生误差的传播和积累,从而影响后续关系抽取的精度。

关于问题(1)中 wrong labels 的问题,有的工作将关系抽取定义为一个 Multi-instance Multi-label 学习问题,j2直播,比如工作 Multi-instance Multi-label Learning for Relation Extraction,训练集中的每个 instance 都可能是一种 label。

而有的工作则是将问题定义为 Multi-instance Single-label 问题,假设共现的 entity 对之间只存在一种关系或者没有关系,一组包括同一对 entities 的 instances 定义为一个 Bag,每一个 Bag 具有一个 label,最终训练的目标是优化 Bag Label 的准确率。第一种假设更加接近于实际情况,研究难度也相对更大一些。

关于问题(2)中的 pipeline 问题,用深度学习的思路来替代特征工程是一个非常自然的想法,用 word embedding 来表示句子中的 entity 和 word,用 RNN 或者 CNN 以及各种 RNN 和 CNN 的变种模型来对句子进行建模,将训练句子表示成一个 sentence vector,然后进行关系分类,近几年有几个工作都是类似的思路,比如:

[3] Relation Classification via Convolutional Deep Neural Network

[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

[5] Neural Relation Extraction with Selective Attention over Instances

[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Deions

其中 [3] 是用 CNN 对句子进行建模然后进行分类学习,在表示中针对 entity 的位置定义了一种 position embedding,如图 1:

报码:关于远程监督,我们来推荐几篇值得读的论文

▲ 图 1:用 CNN 来建模句子

[4] 是 [3] 的改进工作,对 CNN 的 pooling 进行了专门的改进,如图 2:

报码:关于远程监督,我们来推荐几篇值得读的论文

▲ 图 2:PCNN 是文献 [3] 中 CNN 的改进版

[5] 的工作是在 [4] 的基础上采用了 attention 模型,对每个 Bag 中的 instance 进行了权重的学习,label 正确的 instance 贡献更多的力量,label 不正确的 instance 贡献就低,从而提高了分类的准确率,如图 3:

报码:关于远程监督,我们来推荐几篇值得读的论文

▲ 图 3:基于 attention 的关系分类模型

[6] 是在 [4] [5] 的基础上添加了 entity 的描述信息来辅助学习 entity 的表示,从而提高了准确率,如图 4:

报码:关于远程监督,我们来推荐几篇值得读的论文

▲ 图 4:利用了 entity 的辅助信息来提升效果

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容