在这个解决方案下我们可以放心地把判别器训练到接近最优,不必担心梯度消失的问题。而当判别器最优时,对公式9取反可得判别器的最小loss为
其中 Pr+e和 Pg+e分别是加噪后的真实分布与生成分布。反过来说,从最优判别器的loss可以反推出当前两个加噪分布的JS散度。两个加噪分布的JS散度可以在某种程度上代表两个原本分布的距离,也就是说可以通过最优判别器的loss反映训练进程!……真的有这样的好事吗? 并没有,因为加噪JS散度的具体数值受到噪声的方差影响,随着噪声的退火,前后的数值就没法比较了,所以它不能成为Pr和 Pg 距离的本质性衡量。 因为本文的重点是WGAN本身,所以WGAN前作的加噪方案简单介绍到这里,感兴趣的读者可以阅读原文了解更多细节。加噪方案是针对原始GAN问题的第二点根源提出的,解决了训练不稳定的问题,不需要小心平衡判别器训练的火候,可以放心地把判别器训练到接近最优,但是仍然没能够提供一个衡量训练进程的数值指标。但是WGAN本作就从第一点根源出发,用Wasserstein距离代替JS散度,同时完成了稳定训练和进程指标的问题! 作者未对此方案进行实验验证。 第三部分:Wasserstein距离的优越性质 Wasserstein距离又叫Earth-Mover(EM)距离,定义如下: 解释如下:Ⅱ(Pr, Pg)是 Pr和 Pg 组合起来的所有可能的联合分布的集合,反过来说,Ⅱ(Pr, Pg)中每一个分布的边缘分布都是 Pr和 Pg。对于每一个可能的联合分布γ而言,可以从中采样得到一个真实样本 x 和一个生成样本 y,并算出这对样本的距离 ||x - y||,所以可以计算该联合分布γ下样本对距离的期望值 。在所有可能的联合分布中能够对这个期望值取到的下界 ,就定义为Wasserstein距离。 直观上可以把理解为在 γ 这个“路径规划”下把 Pr 这堆“沙土”挪到Pg“位置”所需的“消耗”,而W(Pr, Pg)就是“最优路径规划”下的“最小消耗”,所以才叫Earth-Mover(推土机)距离。 Wasserstein距离相比KL散度、JS散度的优越性在于,即便两个分布没有重叠,Wasserstein距离仍然能够反映它们的远近。WGAN本作通过简单的例子展示了这一点。考虑如下二维空间中的两个分布 P? 和 P?,P? 在线段AB上均匀分布,P? 在线段CD上均匀分布,通过控制参数 θ可以控制着两个分布的距离远近。
此时容易得到(读者可自行验证)
KL散度和JS散度是突变的,要么最大要么最小,Wasserstein距离却是平滑的,如果我们要用梯度下降法优化 θ这个参数,前两者根本提供不了梯度,Wasserstein距离却可以。类似地,在高维空间中如果两个分布不重叠或者重叠部分可忽略,则KL和JS既反映不了远近,也提供不了梯度,但是Wasserstein却可以提供有意义的梯度。 第四部分:从Wasserstein距离到WGAN 既然Wasserstein距离有如此优越的性质,如果我们能够把它定义为生成器的loss,不就可以产生有意义的梯度来更新生成器,使得生成分布被拉向真实分布吗? 没那么简单,因为Wasserstein距离定义(公式12)中的没法直接求解,不过没关系,作者用了一个已有的定理把它变换为如下形式 证明过程被作者丢到论文附录中了,我们也姑且不管,先看看上式究竟说了什么。 首先需要介绍一个概念——Lipschitz连续。它其实就是在一个连续函数f上面额外施加了一个限制,要求存在一个常数K≥0使得定义域内的任意两个元素x?和x?都满足 此时称函数f的 Lipschitz 常数为 K。 简单理解,比如说 f的定义域是实数集合,那上面的要求就等价于 f的导函数绝对值不超过 K。再比如说 log(x) 就不是 Lipschitz 连续,因为它的导函数没有上界。Lipschitz 连续条件限制了一个连续函数的最大局部变动幅度。 (责任编辑:本港台直播) |