记忆网络主要包括hard attention和soft attenion两种,然而hard不能用于反向传播算法进行端到端训练,所以只能使用强化学习的方法进行训练;soft所涉及的计算参数又很大,只适合于少量Memory。本文提出Hierarchical Memory Networks(HMN)模型,算是soft和hard的一个混合模型,计算量减少且训练更加容易,实验结果也很好。 模型 soft attention是对所有的memory都要进行attention的计算,对全集计算使计算量很大。HMN利用层次化结构使得attention的集合缩小,利用MaximumInner Product Search(MIPS)的方法从全集中获得一个最优子集,在子集上面去做attention就大大降低计算量。这样的方式又和hard attention预测关注点的方法有些类似,将注意力放在最相关的那部分,这个的做法也更接近于人的注意力思维。 文章的核心部分在于如何获取与query最相近的子集。 主实验主要包括两个: 1、Exact K-MIPS:计算复杂度依然和soft attention差不多。 2、Approximate K-MIPS:利用Maximum Cosine Similarity Search(MCSS)的方法代替MIPS的方法,牺牲一些精确度,降低复杂度和加快训练速度。 MIPS有三种方法,分别是基于hash,基于tree,基于clustering,基于上述三种方法文中又做了几组组对比实验,最后实验结果显示基于clustering的效果是最好的。 文章得到的实验结果如下:
资源 1、 The SimpleQuestions dataset(使用的是Large-scale simple question answering with memory networks文章中的数据集) 2、babi 相关工作 1、arXiv 2014, soft attention,《Neural turing machines》 2、CoRR 2015, hard attention,《Reinforcement learning neural turing machine》 3、ICLR 2015, memory network,《Memory networks》 4、arXiv 2015,《End-to-end memory networks》,引入半监督记忆网络可以自学所需要的facts。 5、CoRR 2016, DMN, 《Dynamic memory networks for visual and textual question answering》,增加了一个episodic memory 使得可以动态更新memory里面的内容。 简评 文章的创新主要在于修改了两个模块:Memory和Reader。 1、将memory的结构从a flat of array变成了hierarchical memory structure。将memory分成若干groups,这些groups又可以在进行更高级别的组合。 2、reader是从MIPS选出的子集中使用soft attention。MIPS从memory中选出一 个group子集作为最相关的子集。 Mode Regularized Generative Adversarial Networks作者 Tong Che; Yanran Li 单位 Montreal Institute for Learning Algorithms; Department of Computing, The Hong Kong Polytechnic University 关键词 GAN, Regularizers 文章来源 ICLR 2017 问题 本文针对的问题是:1、GAN 的训练过程很不稳定 2、GAN 生成的样本局限于训练样本中的大 model 上,atv,不能平衡数据的分布(missing model problem)。 两个问题互相影响,导致训练结果不好。 模型 针对上面的问题,作者提出了两种 regularizers 去控制 GAN 的训练过程。 第一个 regularizer 也被作者称为 Regularized-GAN。作者认为可以从 generator 入手,给 generator 增加 regularizer,使得其具有更好的 gradient ,这样 G 和 D 都能稳定训练。 具体的方法是增加一个 encoder E(x) : X → Z.即把原先的 noise vector z 改为 z = encoder(X) ,即然后再 G(encoder(X))。如下图:
这样做有两个好处。第一,原始的模型很容易出现梯度消失的情况,因为 discriminator D 特别容易区分真实数据和生成数据导致 generator 就得不到 D 的梯度。作者的模型多了一个 reconstruction 的部分,这样生成出来数据不再那样容易被 D 识别出来。所以 D 和 G 就都能一直有 gradient 去训练,从而提高稳定性。第二,对于 x ,G(E(x)) 会尽量去生成 x 原本所属的类,从而一定程度解决了 missing model problem。 (责任编辑:本港台直播) |