本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)(3)

时间:2017-04-01 01:09来源:118图库 作者:www.wzatv.cc 点击:
Variational Inference(VI)是传统上比较流行的解决Probabilistic Models的Posterior Inference(PI)的办法。其核心思想是把逼近Posterior Distribution的问题转换成为了一个

  Variational Inference(VI)是传统上比较流行的解决Probabilistic Models的Posterior Inference(PI)的办法。其核心思想是把逼近Posterior Distribution的问题转换成为了一个解决KL Divergence的优化问题,从而利用现有的很多优化办法来解决PI的问题。当Probabilistic Models符合Exponential Family的分布时,VI可以很容易利用Coordinate Ascent来解决。但在现实应用中,很多模型并不符合这样的条件,因此,已有不少方法来探讨如何解决VI在Non-conjugate情况下的实现。一般意义的思路是,用Monte Carlo的办法获得Variational Objective所对应的梯度(Gradient)的估计,然后利用这样的估计来进行Stochastic Optimization,从而拟合Variational Parameters。在这样的思路下,已经有了两个主要的研究方向:Black-box VI和Reparameterization Gradients(RG)。RG的想法是把Latent Variable转换成为一组辅助(Auxiliary)参数,使得新的参数不依赖于Variational Parameters。这样一个操作能够让新的Variational Objective更加方便进行Gradient操作,从而达到简化优化过程的目的。然而,RG的主要问题是,这样的办法并不有普遍性(General),只能对于简单的Gaussian variational distribution有作用,而对于类似Gamma、Beta这样的分布则需要进一步的近似处理(Approximation)。这篇文章想提供一个一般意义的RG。在这里,我们不复述具体的细节,不过文章提出的算法核心是把Variational Parameter的梯度,拆成了三个部分:第一部分是通常的(RG);第二部分是一个Correction的Term,如果转换后的Variational Distribution不依赖原来的Variational Parameter,那么这个部分就会成为0;第三个部分,则是标准的Entropy的梯度。在这样的算法下,文章展示了如何对Gamma、Log-normal以及Beta Distribution进行处理,使得这些分布能够进行RG变换。同时,文章给出了一个普通意义下的优化算法。总体说来,这篇文章是把RG的实用型往前推了一步。

  Can Active Memory Replace Attention

  

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)

  概要:Active Memory能够替代Attention吗?本文想要探讨这样的话题。不过,从结果看,答案是,不能。

  这篇文章来自Google Brain的Lukasz Kaiser和Samy Bengio。文章的主旨是想使用一种叫做Active Memory的机制来替代Attention机制。文章通过扩展第一作者在ICLR 2016提出的一个Neural-GPU模型,使其拥有Active Memory的能力并且叫做Extended-Neural GPU,通过机器翻译来展现该机制可与Attention匹敌。不过,读者们需要注意,文中提出的Active Memory机制主要基于Convolution Operator,是否能够扩展到其他模型,还需要进一步讨论。文章最有价值的部分在于Attention机制以及Active Memory机制的讨论。从模型的发展角度来说,文章指出,Attention机制的提出是要解决使用RNN来进行机器翻译时,因为一个固定维度的Hidden Vector,导致翻译效果下降,甚至在比较长的语句中翻译效果进一步恶化。本质来说,Attention机制就是把这些中间结果组合起来,也就不仅仅是一个固定长度的隐含状态,而是一个所谓的记忆(Memory)Tensor,在解的每一步,一个基于过去Memory的Distribution会被计算,然后解器(Decoder)的输入是过去这些Memory的一个加权平均。因此,在这样的机制下,解码器可以对过去不同的细节进行关注,从而产生需要的字符。这套Attention机制已经被认为在机器翻译之外,如图形模型中有较好效果。文章认为Attention的局限在于其定义本身,也就是Attention定义中的Softmax。这个Softmax还是想关注过去Memory中的某一个单元。文章认为,这个局限使得在一些任务中,Attention机制完全无法完成相应的学习功能。是否能够打破这个局限?文章认为Acitve Memory机制可以打破Attention的局限。简单说来,Active Memory就是在解码这个步骤依赖并且访问所有的Memory,每一步解码的Memory都不一样。当然,这个机制在之前的Neural-GPU中已经提出来,并且在那篇文章中展现出了算法任务(Algorithmic Tasks)上的良好性能。但在传统的机器翻译任务上,这样的模型效果并不理想。这篇文章就是想通过对模型进行小改进从而达到在机器翻译任务上的进步。在这里我们不复述模型的改进,因为感觉这个改进并不具备普遍适用性而是为了增强模型性能所做的Hack。不过,文章指出,作者的思路和Grid LSTM比较相似,有兴趣的读者可以去参考。在经历了一系列Hack之后,新提出来的Extended Neural-GPU在机器翻译这个任务上,与GRU+Attention有了相似的模型性能。对于Attention机制有兴趣的读者,可以精读这篇文章。

  Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm

  

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)

  摘要:Variational Inference的难点是没有通用的算法模式,这篇文章也许是一个启发。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容