本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN

时间:2017-02-26 17:14来源:香港现场开奖 作者:118开奖 点击:
【 新智元导读】 作为GAN训练方法的一个替代方法,WGAN甫一提出就以其稳定和简洁引起了学界的广泛关注。新智元曾转载了国内学者郑华滨发表的文章,着重介绍了WGAN和GAN的不同之处

  新智元导读】作为GAN训练方法的一个替代方法,WGAN甫一提出就以其稳定和简洁引起了学界的广泛关注。新智元曾转载了国内学者郑华滨发表的文章,着重介绍了WGAN和GAN的不同之处。今天我们再为大家推荐一篇国外研究者撰写的《Wasserstein GAN》导读,atv,文中特别讲解了WGAN中分布之间距离的定义和属性。相信这两篇文章能帮助您对WGAN有一个比较深入的认识。

  我真的很喜欢Wassertein GAN (Martin Arjovsky et al., 2017)这篇论文。不过论文中的艰深理论可能会吓跑许多人,所以我今天尝试着把它讲得好懂一些。

  这篇论文为什么重要?原因如下:

  ? 论文提出了一种新的GAN的训练算法,能够在一般的GAN数据集上运行得很好;

  ? 这种训练算法有理论支撑。在深度学习领域,不是所有理论上可行的论文都能有良好的操作结果,但有良好操作结果的理论上可行的文章,都会有真正良好的操作结果。对这些论文来说,理解它们的理论非常重要,因为它们的理论能够解释为什么它们表现得如此出色;

  ? 我听说在Wasserstein GAN中,你可以(也应该)训练鉴别器收敛。如果真是这样,就不需要用鉴别器更新来平衡发生器更新了,这就像是训练GAN的最大黑魔法之一;

  ? 论文显示了鉴别器损失和理解质量的相关性。如果真是这样,那可不得了。在我有限的GAN的经验里,一个很大的问题就是损失并不意味着什么——这要感谢对抗性训练,它让判别模型是否在训练都变得很难。强化学习和损失函数有着相似的问题,但我们至少获取了某些意义上的回报。即使是一个粗略定量测量的训练过程,对于自动超参数优化(比如贝叶斯优化)来说也够宝贵了。

  另外,我相信GAN和actor-critic强化学习有着紧密的联系。(参见Pfau & Vinyals 2017.)

  导言

  论文开篇介绍了生成模型的背景知识。

  在学习生成模型时,我们假定我们的数据来自未知分布Pr( r代表real)。我们希望学习近似Pr的分布Pθθ是分布的参数

  你可以想出两种方法来做这件事。

参数直接描述概率密度。意味着,Pθ是使成立的函数,我们通过最大似然估计优化Pθ;

参数θ描述了变换现有分布的方式ZZ。这里,gθ是某种可微分函数,Z是一个常见的分布(通常是均匀或高斯),而Pθ=gθ(Z)。

  论文首先解释为什么第一种方法会遇到问题。

  给定函数PθMLE目标是

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN

  在极限情况下,这等效于使KL-divergence KLPr ||Pθ)最小化。

  说明:为什么这是真的?

  recall一下连续分布PQKL发散度为

  

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN

  极限情况下(比如m→∞),将根据数据分布Pr出现样本,所以

  

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN

  (按顺序得到:求和的极限变为积分,通过negate将最大值翻转为最小值,添加一个不取决于θ的常数,并应用KL散度的定义。)

  注意if Q(x)=0 at an x,其中P(x)>0,KL散度goes to +∞。如果Pθ有低维支持,对MLE是不好的,因为所有Pr都位于该支持内是非常不可能的。即使单个数据点位于Pθ支持以外,KL散度都会爆掉。

  为了解决此问题,我们可以在训练MLE时随机化噪声至Pθ。这确保分布在各处都被定义。但现在我们介绍一些错误,且经验上来说人们需要添加大量的随机噪声,使模型训练。这有点儿不妙。此外,即使我们学习了一个好的密度Pθ,计算上来说从其中采样的成本可能太高了。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容