本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN(3)

时间:2017-02-26 17:14来源:香港现场开奖 作者:118开奖 点击:
我们希望我们的优化算法学会移动θ到 0 ,即θ →0 ,距离d( P 0, P θ)应该减小。但对于许多通用距离函数来说,这不会发生。 该示例显示存在不在 JS 、

  我们希望我们的优化算法学会移动θ到0,即θ→0,距离d(P0,Pθ)应该减小。但对于许多通用距离函数来说,这不会发生。

  

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN

  该示例显示存在不在JSKL、反向KLTV散度下收敛的分布序列,atv,但是其在EM距离下收敛。

  该示例还显示了对于JSKL、反向KLTV散度,存在梯度总是0的情况。

  这从优化的角度来看是特别有效的- 任何通过采用梯度工作的方法在这些情况下都会失去作用。

  诚然,这是一个有价值的例子,因为支持是不相交的,但是论文指出,当支持是高维空间中的低维流形时,交集很容易测量为零,这足以给出类似的坏结果

  下列定理佐证了这一认识。

  

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN

  你需要参考这篇论文,看看足够好的意思,但是对于我们的目的来说,知道它能满足使用标准非线性的前馈网络就足够好了。因此,在JSKLWassertstein距离之外,只有Wasserstein距离具有连续性和可微分性的保证,这两者都是你真正想在损失函数找到的东西。

  第二个定理显示,不仅Wasserstein距离提供更好的保证,它也是组中最弱的。

  

【j2开奖】不容错过!彻底解析 2017 最火结构 Wasserstein GAN

  总之,这证明了在KL、逆KLTVJS散度之下收敛的每个分布也在Wasserstein散度下收敛。它还证明了小的earth mover 距离对应于小的分布差异。

  结合起来,这表明Wasserstein距离是生成模型的一个引人注目的损失函数。

  Wasserstein GAN

  不幸的是,计算Wasserstein距离确实是棘手的。让我们重复一下定义。

  

  论文现在说明了我们如何计算它的近似值。

  来自Kantorovich-Rubinstein二元性的结果显示W相当于

  

  其中supremum被所有1-Lipschitz函数take over

  说明:Lipschitz说明了什么?

  

  直观上,对于更广义的斜率定义来说,K-Lipschitz函数的斜率从不超过K

  如果我们用K-Lipschitz函数上的supremum替代1-Lipschitz函数上的supremum,那么supremum便改为K?W(Pr,Pθ)

  K-Lipschitz函数上的supremum仍然很棘手,但现在逼近更容易了。假设我们有一个参数函数family,其中w是weights,W是所有可能的weights集。进一步假设这些函数都是某些KK-Lipschitz。于是我们有:

  

  为了优化的目的,我们甚至不需要知道K是什么!知道它存在就够了,并且它在整个训练过程中是不变的。当然,W的梯度会被一个未知的K scaled,但它们也会被学习率α scaled,所以K会被吸收到超参数调谐中。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容