我们希望我们的优化算法学会移动θ到0,即θ→0,距离d(P0,Pθ)应该减小。但对于许多通用距离函数来说,这不会发生。
该示例显示存在不在JS、KL、反向KL或TV散度下收敛的分布序列,atv,但是其在EM距离下收敛。 该示例还显示了对于JS、KL、反向KL和TV散度,存在梯度总是0的情况。 这从优化的角度来看是特别有效的- 任何通过采用梯度工作的方法在这些情况下都会失去作用。 诚然,这是一个有价值的例子,因为支持是不相交的,但是论文指出,当支持是高维空间中的低维流形时,交集很容易测量为零,这足以给出类似的坏结果。 下列定理佐证了这一认识。
你需要参考这篇论文,看看“足够好”的意思,但是对于我们的目的来说,知道它能满足使用标准非线性的前馈网络就足够好了。因此,在JS、KL和Wassertstein距离之外,只有Wasserstein距离具有连续性和可微分性的保证,这两者都是你真正想在损失函数找到的东西。 第二个定理显示,不仅Wasserstein距离提供更好的保证,它也是组中最弱的。
总之,这证明了在KL、逆KL、TV和JS散度之下收敛的每个分布也在Wasserstein散度下收敛。它还证明了小的earth mover 距离对应于小的分布差异。 结合起来,这表明Wasserstein距离是生成模型的一个引人注目的损失函数。 Wasserstein GAN 不幸的是,计算Wasserstein距离确实是棘手的。让我们重复一下定义。
论文现在说明了我们如何计算它的近似值。 来自Kantorovich-Rubinstein二元性的结果显示W相当于
其中supremum被所有1-Lipschitz函数take over。 说明:Lipschitz说明了什么?
直观上,对于更广义的斜率定义来说,K-Lipschitz函数的斜率从不超过K。 如果我们用K-Lipschitz函数上的supremum替代1-Lipschitz函数上的supremum,那么supremum便改为K?W(Pr,Pθ)。 在K-Lipschitz函数上的supremum仍然很棘手,但现在逼近更容易了。假设我们有一个参数函数family,其中w是weights,W是所有可能的weights集。进一步假设这些函数都是某些K的K-Lipschitz。于是我们有:
为了优化的目的,我们甚至不需要知道K是什么!知道它存在就够了,并且它在整个训练过程中是不变的。当然,W的梯度会被一个未知的K scaled,但它们也会被学习率α scaled,所以K会被吸收到超参数调谐中。 (责任编辑:本港台直播) |