本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】一周论文 | 记忆网络及其变体模型(2)

时间:2016-10-29 15:28来源:118论坛 作者:118KJ 点击:
本篇 论文 提出的模型是在Facebook提出的原始Memory networks基础上进行的改进。在Memory networks的框架下,将原来依赖于中间监督信息的非端到端Memory networks改

本篇论文提出的模型是在Facebook提出的原始Memory networks基础上进行的改进。在Memory networks的框架下,将原来依赖于中间监督信息的非端到端Memory networks改进为端到端的Memory networks。基础模型之外,本文针对时序编提出了一些有趣的trick,可作参考。

  Ask Me Anything: Dynamic Memory Networks for Natural Language Processing作者

Ankit Kumar, Ozan Irsoy, Peter Ondruska, Mohit Iyyer, James Bradbury, Ishaan Gulrajani, Victor Zhong, Romain Paulus, Richard Socher

  单位

MetaMind

  关键词

Memory Networks, Neural Networks, Question Answering

  来源

arXiv

  问题

Question Answering: 给定一段Context,一个与此Context相关的Question,利用模型生成一个单词的Answer。

  模型

下图给出了dynamic memory networks的框架。

wzatv:【j2开奖】一周论文 | 记忆网络及其变体模型

首先Context和Question都经过Gated Recurrent Unit(GRU)转换成成vector形式,分别作为episodic memories e和m储存下来。e代表的是一连串vectors,Context中每句话都会被转换成一个e vector,然而Question只会被转换成一个m vector。

下一步是episodic memory updates,在每一个episode, 每一个e vector会和m计算一个attention,本文中使用一个two layer feed forward neural network计算attention score。然后利用attention scores来update episodic memories。

wzatv:【j2开奖】一周论文 | 记忆网络及其变体模型

输出答案也采用了一个GRU decoder

这里的a0是最后一个memory state m。

  简评

总体来说这是一篇很有趣的文章。其中应用了episodically update memory的想法,期望模型能够借此学到一些logical reasoning的能力。并且模型中多次用的GRU,每一层都使用GRU的encoding或者decoding,比较有趣。

然后我认为本文的写作有一些问题,比如我自始至终也没有找到e的下标究竟代表什么,我的理解是每一句话都被encode成一个e作为episodic memory,那么每次Update 其中一个e都要经过所有其他的e是为了更好的融合所有context sentences的信息吗?那么每一层的hidden states h究竟又是什么?上一层的hidden state如何更新到下一层?文章中似乎没有给出明确的公式,也没有在model figure中展示出来,似乎写作不够明确。既然e是有h穿过层层GRU得到,我会揣测下一层的h是上一层e的一个function。

  THE GOLDILOCKS PRINCIPLE: READING CHILDREN’S BOOKS WITH EXPLICIT MEMORY REPRESENTATIONS作者

Felix Hill, Antoine Bordes, Sumit Chopra & JasonWeston

  单位

Facebook AI Research

  关键词

Memory Networks,self-supervised training,window-based memories,The Children’s Book Test(CBT)

  文章来源

ICLR2016

  问题

本文对于语言模型(RNN/LSTM/Memory Network生成)到底能够多好或者在多大程度上表示The Children’s Book做了一项测试。测试结果表面Memor Network上的效果最好。

  模型

文中主要对比了一系列state-of-the-art的模型,每个用不同的方式对之前已经读过的文本进行编,然后进行CBT评比。

  实验中使用的模型以及结果如下:

wzatv:【j2开奖】一周论文 | 记忆网络及其变体模型

CBT简介:数据来自Project Gutenburg所创建的数据集,里面的内容都选自儿童书籍。每20句话产生一个问题,让不同的语言模型去进行预测,开奖,看谁预测的效果更好。

  问题产生于20句话中的某一句话抠掉一个词A。候选集产生分为如下两步:

  1、从构成20句话的词表中随机选出和抠掉词A具有相同词性的词集合C 。

  2、从C中随机抽选10个词作为答案的备选集。

  实验最后在CNN QA的语料上进行测试,在新闻文章中识别命名实体,得到的准确率能到69.4%.

  资源

n-gram language model:the KenLM toolkit (Scalable modified Kneser-Ney language model estimation.)

简评 (责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容