本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)(4)

时间:2017-04-01 01:09来源:118图库 作者:www.wzatv.cc 点击:
众所周知,Bayesian Inference的难点是如何对Posterior Distribution进行计算。在很长一段时间内Markov chain Monte Carlo (MCMC)是解决这类问题的有效工具。然而,MC

  众所周知,Bayesian Inference的难点是如何对Posterior Distribution进行计算。在很长一段时间内Markov chain Monte Carlo (MCMC)是解决这类问题的有效工具。然而,MCMC的缺点是速度慢,并且很难判断是否已经Converge。所以,这也是很多时候Variational Inference(VI)显得要更加吸引人的原因,因为VI常常是一个Deterministic的算法,并且很多优化(Optimization)领域的工具都可以拿来使用。VI的问题是,对于不同的Model,一般需要进行单独推导,并没有统一的一般形式的算法来解模型。如何提出一个一般意义的算法对VI进行优化,是最近VI领域的热门研究课题。这篇文章也是对该领域推动的一次尝试。

  文章提出的算法本身比较简单,具有下面这几个特点:

算法初始时从一个简单的Distribution抽出一堆Particles(也可以认为是Samples)。

然后进行多次迭代,每次迭代时所有Particles都朝着减小KL Divergence的方向前进,这一步用作者的观点说就是类似Gradient Descent的一种做法。

最后算法返回一堆Particles,它们已经可以代表Posterior Distribution了。

  这个算法最关键的是第二步如何进行,简单说来,涉及两个部分:

把Particles移动到Posterior Distribution的高Probability区域,这样能让Particles具有代表性。

同时,也不让这些Particles都聚拢在一起(Collapsed),也就是说,依然希望这些Particles具有多样性代表整个Posterior Distribution的各个部分。

  其实文章的难点和深涩的地方是解释为什么这个流程是正确的算法,里面涉及到所谓的Stein Identity以及Kernelized Stein Discrenpancy。这里就不复述了,有兴趣的读者可以去留意原文。文章的实验部分比较简单,先对一个一维的Gaussian Distribution的情况做了Validation,确保可以运行。紧接着在Bayesian Logistic Regression和Bayesian Neural Network上面做了实验,对比了一系列方法和数据集。总体看,提出的算法有两大优势:第一,准确度明显高于其他算法,第二,速度大幅增加。对于这类新算法文章,可能还是希望能够看到应用到更复杂的模型上以及更大的数据上。

  Coresets for Scalable Bayesian Logistic Regression

  

wzatv:【j2开奖】NIPS十大机器学习论文精选,从注意力机制到集成学习(附下载)

  摘要:在大规模机器学习的浪潮中,主要思路往往是改进算法本身来适应数据的增大。这篇文章则提出一个新颖的思路,来构建具有代表性的数据集,从而来扩展算法的规模。

  这篇文章出自麻省理工(MIT)Tamara Broderick教授的实验室。Tamara之前是Michael Jordan的学生,主要研究Bayesian Nonparametric模型。文章思路比较新颖,在传统的把基于单机的Bayesian inference算法推广到大数据的过程中,一般的思路往往是改进算法本身。比如文章提到了Streaming Variational Inference或者是Distributed MCMC等算法,都是要在经典的算法基础上进行更改,适应大数据的应用场景。对于这样的一般思路,文章认为这些改进后的算法往往缺乏理论的严格证明,并且也对算法的质量并没有保证。这篇文章的观察是基于这么一个假设,那就是在大数据的情况下,数据本身往往是冗余的。比如,在一个新闻事件爆发的时候,很多对于这个事件的报道都是相似的。这篇文章的根本思路是,尝试改变数据集,而不是算法本身,来达到算法的大规模应用。文章采取了一个叫Coreset的概念,也就是一个加权的数据子集,用来逼近全集数据。Coreset这一概念已经在诸如K-means或者PCA等算法中得到研究,之前并没有被应用到Bayesian的情况下。这篇本文是用Bayesian Logistic Regression来做例子。那么,这个Coreset如何构建呢?

  文章提出了这样的算法:

首先要基于一个K-Clustering(后来的实验中采用了K-means);

然后计算一个叫做Sensitivity的值,用来衡量每一个数据点是否冗余,这个值越大,就越不冗余;

把所有的Sensitivity重新Normalize,并且从Normalize之后的Weight里面,Sample出一组数据,最后留下非零Weight的数据集。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容