这激发了后一种方法,即学习一个gθ(一个发生器)以变换已知的分布Z。另一个原因是,它很容易生成样本。给予一个经训练的gθ,只是采样随机噪声z?Z,并求值gθ(z)。(这种方法的缺点是我们不明确知道Pθ是什么,但在实践中这不那么重要。) 为了训练gθ(和扩展Pθ),我们需要测量分布之间的距离。 (注意:我会互换使用公制、距离函数和发散。我知道这在技术上不太准确。特别是度量和发散意味着不同的东西。我预先道歉,这三个概念在我脑子里有些混杂。) 不同的度量(距离的不同定义)诱导不同的收敛序列集合。我们说距离d小于距离d',如果每个在d'下收敛的序列都在d下收敛。 循环回生成模型,给定距离d,我们可以将d(Pr,Pθ)作为一个损失函数对待。最小化和θ相关的d(Pr,Pθ)将会使Pθ靠近Pr,。这是原则性的,只要映射θ?Pθ是连续的(如果是神经网络,则就是如此)。 不同的距离 我们知道我们想要最小化d,但我们如何定义d?本节比较各种距离及其属性。 现在,说实话,我的测量理论是相当糟糕的。论文上来就谈论紧凑度量集、Borel子集等等。从理论的角度来看,这是令人钦佩的。然而,在机器学习中,我们通常使用“足够好”(几乎可以到处微分)的函数,因此可以忽略许多精确的定义,而不会过多地影响讨论。只要我们不像Cantor Set那样糟糕,我们就没事。 回到我们讨论的距离问题上来。
这不是对称的。反向KL散度被定义为KL(Pg||Pr)。
说明:EM定义出了什么问题? EM距离定义有一点不透明。我花了一段时间来了解它,不过做到了之后我还是很高兴的。 首先,EM距离的直观目标。概率分布由他们对每个点的mass来定义。想象一下,我们从分布Pr开始,并想要移动mass以改变分布到Pg。移动massm距离d要耗费m?d的努力。The earth mover 距离就是我们需要耗费的最小努力。 为什么在II(Pr,Pg)上的infimum给出了最小的努力?你可以认为每一个γ ∈ II是一个运送计划。为了执行这一计划,对于所有x来说,y从x到y移动了γ(x,y)mass。 每个移动weight的策略都可以这样表示。 但是这一计划需要满足哪些属性才能满足将Pr转化至Pg? ?离开x的mass的数量是。这必须和在x的原始的mass的数量Pr(x)相等。 ?进入y的mass的数量是。这必须和在y结束的mass的数量Pg(y)相等。 这说明了为什么γ ∈ II的边际必须是Pr和Pg。为了达到效果,花费的努力是 。 计算所有有效γ的infinum,可以得出the earth mover distance。 ■ 现在,论文介绍了一个简单的例子,说明为什么我们应该关心EM的距离。 考虑定义在上的概率分布。设真实的数据分布是(0,y),y从U[0,1]均匀取样。考虑分布Pθ的family,其中Pθ=(0,y),y也从U[0,1]中取样。
当θ=1时的真假分布 (责任编辑:本港台直播) |