【新智元导读】作为GAN训练方法的一个替代方法,WGAN甫一提出就以其稳定和简洁引起了学界的广泛关注。新智元曾转载了国内学者郑华滨发表的文章,着重介绍了WGAN和GAN的不同之处。今天我们再为大家推荐一篇国外研究者撰写的《Wasserstein GAN》导读,atv,文中特别讲解了WGAN中分布之间距离的定义和属性。相信这两篇文章能帮助您对WGAN有一个比较深入的认识。 我真的很喜欢Wassertein GAN (Martin Arjovsky et al., 2017)这篇论文。不过论文中的艰深理论可能会吓跑许多人,所以我今天尝试着把它讲得好懂一些。 这篇论文为什么重要?原因如下: ? 论文提出了一种新的GAN的训练算法,能够在一般的GAN数据集上运行得很好; ? 这种训练算法有理论支撑。在深度学习领域,不是所有理论上可行的论文都能有良好的操作结果,但有良好操作结果的理论上可行的文章,都会有真正良好的操作结果。对这些论文来说,理解它们的理论非常重要,因为它们的理论能够解释为什么它们表现得如此出色; ? 我听说在Wasserstein GAN中,你可以(也应该)训练鉴别器收敛。如果真是这样,就不需要用鉴别器更新来平衡发生器更新了,这就像是训练GAN的最大黑魔法之一; ? 论文显示了鉴别器损失和理解质量的相关性。如果真是这样,那可不得了。在我有限的GAN的经验里,一个很大的问题就是损失并不意味着什么——这要感谢对抗性训练,它让判别模型是否在训练都变得很难。强化学习和损失函数有着相似的问题,但我们至少获取了某些意义上的回报。即使是一个粗略定量测量的训练过程,对于自动超参数优化(比如贝叶斯优化)来说也够宝贵了。 另外,我相信GAN和actor-critic强化学习有着紧密的联系。(参见Pfau & Vinyals 2017.) 导言 论文开篇介绍了生成模型的背景知识。 在学习生成模型时,我们假定我们的数据来自未知分布Pr( r代表real)。我们希望学习近似Pr的分布Pθ(θ是分布的参数)。 你可以想出两种方法来做这件事。 参数直接描述概率密度。意味着,Pθ是使和成立的函数,我们通过最大似然估计优化Pθ; 参数θ描述了变换现有分布的方式ZZ。这里,gθ是某种可微分函数,Z是一个常见的分布(通常是均匀或高斯),而Pθ=gθ(Z)。 论文首先解释为什么第一种方法会遇到问题。 给定函数Pθ,MLE目标是 在极限情况下,这等效于使KL-divergence KL(Pr ||Pθ)最小化。 说明:为什么这是真的? recall一下连续分布P和Q,KL发散度为
极限情况下(比如m→∞),将根据数据分布Pr出现样本,所以
(按顺序得到:求和的极限变为积分,通过negate将最大值翻转为最小值,添加一个不取决于θ的常数,并应用KL散度的定义。) ■ 注意if Q(x)=0 at an x,其中P(x)>0,KL散度goes to +∞。如果Pθ有低维支持,对MLE是不好的,因为所有Pr都位于该支持内是非常不可能的。即使单个数据点位于Pθ支持以外,KL散度都会爆掉。 为了解决此问题,我们可以在训练MLE时随机化噪声至Pθ。这确保分布在各处都被定义。但现在我们介绍一些错误,且经验上来说人们需要添加大量的随机噪声,使模型训练。这有点儿不妙。此外,即使我们学习了一个好的密度Pθ,计算上来说从其中采样的成本可能太高了。 (责任编辑:本港台直播) |