本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)(2)

时间:2017-04-01 01:09来源:118图库 作者:www.wzatv.cc 点击:
文章并没有提供在SSL和DNN相结合的情况下的Learning算法。实验部分非常详实,用LeNet在MNIST、ConvNet和ResNet在CIFAR-10以及AlexNet在ImageNet上都做了实验。总体的感

  文章并没有提供在SSL和DNN相结合的情况下的Learning算法。实验部分非常详实,用LeNet在MNIST、ConvNet和ResNet在CIFAR-10以及AlexNet在ImageNet上都做了实验。总体的感觉是,在很多例子的情况下,更加Sparsity的DNN反而带来了精度的提高。

  Operator Variational Inference

  

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)

  亮点:知道Variational Inference中的KL Divergence有什么问题吗?这篇文章可以给你一些启示。

  这篇文章来自David Blei的实验室。主旨相对比较直观,但是细节非常Technical,核心思想是如何改进Variational Inference(VI)中的KL Divergence。众所周知,VI的内涵是如何把一个Bayesian Inference问题转换成为一个优化(Optimization)问题。在经典的设置下,找到或解出Posterior Distribution的过程,是一个在KL Divergence定义下,找到和真实Posterior Distribution相近的Variational Distribution的过程。这个过程存在两个问题:

通常情况下,Posterior的Variance会被低估;

会产生自动排除某一些Latent Variable配置的错误解。

  同时,在KL Divergence的假设下,Objective可能变为Infinite,当Variational Distribution的Support比真实的Posterior Distribution要大的情况下。为了解决这些问题,这篇文章提出了一个新的框架,叫做Operator Variational Objectives,该框架有三个组件:

一个Operator,基于Posterior和Variational Distribution;

一个Family的Test Functions;

一个距离函数(Distance Function)。

  传统的基于KL Divergence的VI可以写成这个新框架的一个特殊形式。文章基于这个新框架的优化过程则显得很艰深。文章并没有实际的实验,如果你对VI有深入兴趣,可以阅读本文。相信大多数模型在今天选择KL Divergence的情况下,这篇文章无法提供更多的实际意义上的帮助。不过,文章讨论的KL Divergence的问题则可以作为参考。

  Exponential Family Embeddings

  

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)

  亮点:是不是被各种Embedding模型弄得眼花缭乱?这篇文章统一了很多类似模型,提供了一个简单框架。

  这篇文章也来自David Blei的实验室。文章的核心是如何把Word2Vec的思想给Generalize到其他应用场景,提供一个比较通用的模型框架。在这个新框架下,其他的很多类似模型都能够归纳成为这个新框架的特殊形式。新的框架模型为Exponential Family Embedding(EF-EMB),其中包含三个要素:

A Context Function;

A Conditional Exponential Family;

An Embedding Structure。

  首先,Context Function是定义如何把当前的数据点(Data Point)和一个Context里面的其他数据点联系起来。这是一个建模的选择。比如,对于Language Data来说,这个Context可以就是周围的字;而对于Neural Data来说,这个Context则可以是周围的Neuron;对于Shopping Data来说,这个Context则可能就是购物车里的其他商品。其次,Conditional Exponential Family定义一个合适的Distribution,来解释数据的产生过程。比如,对于Language Modeling来说,这个分布就是Categorical Distribution;而对于Real-Valued数据来说,则就是Gaussian Distribution。另外,在这个Conditional Exponential Family的定义里,每一个Data Point有两种Embeddings:Embedding Vector和Context Vector。通俗地讲,也就是每个数据点分解成为了Embedding Vector和一组Context Vector(这个被上面的Context Function所定义)的乘积形式。第三个要素Embedding Structure定义在建模中,Embeddings是如何被共享(Shared)的。比如,对于Language Data来说,每一个词只有唯一的Embedding Vector和唯一的Context Vector。还有其他的一些Setting里,这两者也可以是相同的。在定义了之前的这些结构以后,Objective Function则是Log Conditional Probability的加和,外加Log定义的Regularizer。文章讨论了好几个模型的例子。总之,现有的一些Embedding模型都很容易在这个框架下被重现。模型的Inference则采用了SGD。文章里还讨论了在SGD的情况下,如何得到类似于Negative Sampling的结果。总之,这篇文章很值得细看。一方面也是因为这里面统一了很多关于Embedding模型的讨论;另一方面,从软件工程角度来说,也许也能够设计和实现一个类型的模型框架。

  The Generalized Reparameterization Gradient

  亮点:Reparameterization Gradients是近期Variational Inference的重要进展之一,怎么把其扩展呢?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容