本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】条条大路通罗马之 LS

时间:2017-02-16 14:51来源:香港现场开奖 作者:www.wzatv.cc 点击:
【新智元导读】 近期备受关注的 Wasserstein GAN 被推出的同时,还有一种新的GAN——损失敏感GAN(Loss Sensitive GAN)也发布在 arxiv 上,它 以“按需分配”建模能力来解决无限建模能力带来

  【新智元导读】近期备受关注的 Wasserstein GAN 被推出的同时,还有一种新的GAN——损失敏感GAN(Loss Sensitive GAN)也发布在 arxiv 上,它 以“按需分配”建模能力来解决无限建模能力带来的过拟合和无泛化性问题。论文的作者在这里从建模能力、目标函数、梯度消失问题等方面对比这两种 GAN ,并且对梯度消失问题进行了分析,最后对LS-GAN进行了有监督和半监督的推广。

  最近很多关心深度学习最新进展、特别是生成对抗网络的朋友可能注意到了一种新的 GAN — Wasserstein GAN。其实在WGAN 推出的同时,一种新的 LS-GAN (Loss Sensitive GAN,损失敏感GAN)也发表在预印本 [1701.06264] Loss-Sensitive Generative Adversarial Networks on Lipschitz Densities 上。

  那这两种 GAN 有没有什么联系呢?作为LS-GAN的作者,笔者就带大家一览WGAN和LS-GAN本质和联系。

  GAN前传和“无限的建模能力”

  熟悉经典GAN的读者都知道,GAN是一种通过对输入的随机噪声z(比如高斯分布或者均匀分布),运用一个深度网络函数G(z),从而希望得到一个新样本,该样本的分布,我们希望能够尽可能和真实数据的分布一致(比如图像、视频等)。

  在证明GAN能够做得拟合真实分布时,Goodfellow做了一个很大胆的假设:用来评估样本真实度的Discriminator网络(下文称D-网络)具有无限的建模能力,也就是说不管真实样本和生成的样本有多复杂,D-网络都能把他们区分开。这个假设呢,也叫做非参数假设

  当然,对于深度网络来说,咱只要不断的加高加深,这还不是小菜一碟吗?深度网络擅长的就是干这个的么。

  但是,正如WGAN的作者所指出的,一旦真实样本和生成样本之间重叠可以忽略不计(这非常可能发生,特别当这两个分布是低维流型的时候),而又由于D-网络具有非常强大的无限区分能力,可以完美地分割这两个无重叠的分布,这时候,经典GAN用来优化其生成网络(下文称G-网络)的目标函数--JS散度-- 就会变成一个常数!

  我们知道,深度学习算法,基本都是用梯度下降法来优化网络的。一旦优化目标为常数,其梯度就会消失,也就会使得无法对G-网络进行持续的更新,从而这个训练过程就停止了。这个难题一直一来都困扰这GAN的训练,称为梯度消失问题

  WGAN 来袭

  为解决这个问题,WGAN 提出了取代 JS 散度的 Earth-Mover(EM)来度量真实和生成样本密度之间的距离。该距离的特点就是,即便用具有无限能力的 D-网络完美分割真实样本和生成样本,这个距离也不会退化成常数,仍然可以提供梯度来优化 G-网络。不过 WGAN 的作者给出的是定性的解释,缺少定量分析,这个我们在后面解释 LS-GAN 时会有更多的分析。

  现在,我们把这个 WGAN 的优化目标记下来,下文我们会把它跟本文的主角 LS-GAN 做一番比较。

  

报码:【j2开奖】条条大路通罗马之 LS

  这里 f-函数和 g-函数 分别是 WGAN 的批评函数(critics)和对应的 G-网络。批评函数是WGAN里的一个概念,对应 GAN 里的 Discriminator。该数值越高,代表对应的样本真实度越大。

  好了,对 WGAN 就暂时说到这里。总结下,由于假设中的无限建模能力,使得 D-网络可以完美分开真实样本和生成样本,进而 JS 散度为常数;而 WGAN 换 JS 散度为 EM 距离,解决了优化目标的梯度为零的问题。

  不过细心的读者注意到了,WGAN 在上面的优化目标(12)里,有个对 f-函数的限定:它被限定到所谓的 Lipschitz 连续的函数上的。那这个会不会影响到上面对模型无限建模能力的假设呢?

  其实,这个对f-函数的 Lipschitz 连续假设,就是沟通 LS-GAN 和 WGAN 的关键,因为 LS-GAN 就是为了限制 GAN 的无限建模能力而提出的。

  熟悉机器学习原理的朋友会知道,一提到无限建模能力,第一反应就应该是条件反应式的反感。为什么呢?无限建模能力往往是和过拟合,无泛化性联系在一起的。

  仔细研究Goodfellow对经典GAN的证明后,大家就会发现,之所以有这种无限建模能力假设,一个根本原因就是GAN没有对其建模的对象--真实样本的分布--做任何限定。

  换言之,GAN设定了一个及其有野心的目标:就是希望能够对各种可能的真实分布都适用。结果呢,就是它的优化目标JS散度,在真实和生成样本可分时,变得不连续,才使得WGAN有了上场的机会,用EM距离取而代之。

  所以,某种意义上,无限建模能力正是一切麻烦的来源。LS-GAN就是希望去掉这个麻烦,取而代之以“按需分配”建模能力。

  LS-GAN和“按需分配”的建模能力

  好,让我们换个思路,直接通过限定的GAN的建模能力,得到一种新的GAN模型。这个就是LS-GAN了。我们先看看LS-GAN的真容

  

报码:【j2开奖】条条大路通罗马之 LS

  这个是用来学习损失函数的目标函数。我们将通过最小化这个目标来得到一个“损失函数" (

  ,下文称之为L-函数)。L-函数在真实样本上越小越好,在生成的样本上越大越好。

  另外,对应的G-网络,通过最小化下面这个目标实现:

  

报码:【j2开奖】条条大路通罗马之 LS

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容