【j2开奖】不容错过！彻底解析 2017 最火结构 Wasserstein GAN(2)_本港台直播_J2开奖直播

　　这激发了后一种方法，即学习一个gθ（一个发生器）以变换已知的分布Z。另一个原因是，它很容易生成样本。给予一个经训练的gθ，只是采样随机噪声z?Z，并求值gθ(z)。（这种方法的缺点是我们不明确知道Pθ是什么，但在实践中这不那么重要。）

　　为了训练gθ（和扩展Pθ），我们需要测量分布之间的距离。

　　（注意：我会互换使用公制、距离函数和发散。我知道这在技术上不太准确。特别是度量和发散意味着不同的东西。我预先道歉，这三个概念在我脑子里有些混杂。）

　　不同的度量（距离的不同定义）诱导不同的收敛序列集合。我们说距离d小于距离d'，如果每个在d'下收敛的序列都在d下收敛。

　　循环回生成模型，给定距离d，我们可以将d(Pr,Pθ)作为一个损失函数对待。最小化和θ相关的d(Pr,Pθ)将会使Pθ靠近Pr,。这是原则性的，只要映射θ?Pθ是连续的（如果是神经网络，则就是如此）。

　　不同的距离

　　我们知道我们想要最小化d，但我们如何定义d？本节比较各种距离及其属性。

　　现在，说实话，我的测量理论是相当糟糕的。论文上来就谈论紧凑度量集、Borel子集等等。从理论的角度来看，这是令人钦佩的。然而，在机器学习中，我们通常使用“足够好”（几乎可以到处微分）的函数，因此可以忽略许多精确的定义，而不会过多地影响讨论。只要我们不像Cantor Set那样糟糕，我们就没事。

　　回到我们讨论的距离问题上来。

【j2开奖】不容错过！彻底解析 2017 最火结构 Wasserstein GAN

　　这不是对称的。反向KL散度被定义为KL(Pg||Pr)。

【j2开奖】不容错过！彻底解析 2017 最火结构 Wasserstein GAN

　　说明：EM定义出了什么问题？

　　EM距离定义有一点不透明。我花了一段时间来了解它，不过做到了之后我还是很高兴的。

　　首先，EM距离的直观目标。概率分布由他们对每个点的mass来定义。想象一下，我们从分布Pr开始，并想要移动mass以改变分布到Pg。移动massm距离d要耗费m?d的努力。The earth mover 距离就是我们需要耗费的最小努力。

　　为什么在II(Pr,Pg)上的infimum给出了最小的努力？你可以认为每一个γ ∈ II是一个运送计划。为了执行这一计划，对于所有x来说，y从x到y移动了γ(x,y)mass。

　　每个移动weight的策略都可以这样表示。但是这一计划需要满足哪些属性才能满足将Pr转化至Pg？

　　?离开x的mass的数量是。这必须和在x的原始的mass的数量Pr(x)相等。

　　?进入y的mass的数量是。这必须和在y结束的mass的数量Pg(y)相等。

　　这说明了为什么γ ∈ II的边际必须是Pr和Pg。为了达到效果，花费的努力是

　　。

　　计算所有有效γ的infinum，可以得出the earth mover distance。

■

　　现在，论文介绍了一个简单的例子，说明为什么我们应该关心EM的距离。

　　考虑定义在上的概率分布。设真实的数据分布是(0,y)，y从U[0,1]均匀取样。考虑分布Pθ的family，其中Pθ=(0,y)，y也从U[0,1]中取样。

【j2开奖】不容错过！彻底解析 2017 最火结构 Wasserstein GAN

　　当θ=1时的真假分布

(责任编辑：本港台直播)