处得到最小值, 此即为判别器的最优解. 由式 (4) 可 知, GAN 估计的是两个概率分布密度的比值, 这也 是和其他基于下界优化或者马尔科夫链方法的关键 不同之处。 另一方面, D(x) 代表的是 x 来源于真实数据 而非生成数据的概率. 当输入数据采样自真实数据x 时, D 的目标是使得输出概率值 D(x) 趋近于 1, 而当输入来自生成数据 G(z) 时, D 的目标是正确 判断数据来源, 使得 D(G(z)) 趋近于 0, 同时 G 的 目标是使得其趋近于 1. 这实际上就是一个关于G 和 D 的零和游戏, 那么生成器 G 的损失函数为ObjG(θG) = ?ObjD(θD, θG). 所以 GAN 的优化问 题是一个极小—极大化问题, GAN 的目标函数可 以描述如下:
总之, 对于 GAN 的学习过程, 我们需要训练模 型 D 来最大化判别数据来源于真实数据或者伪数 据分布 G(z) 的准确率, 同时, 我们需要训练模型 G来最小化 log(1 ? D(G(z))). 这里可以采用交替优 化的方法: 先固定生成器 G, 优化判别器 D, 使得D 的判别准确率最大化; 然后固定判别器 D, 优化 生成器 G, 使得 D 的判别准确率最小化. 当且仅当pdata = pg 时达到全局最优解. 训练 GAN 时, 同一 轮参数更新中, 一般对 D 的参数更新 k 次再对 G的参数更新 1 次。 2.3 GAN 的衍生模型 自 Goodfellow 等[1] 于 2014 年提出 GAN 以来,各种基于 GAN 的衍生模型被提出, 这些模型的创 新点包括模型结构改进、理论扩展及应用等. 部分 衍生模型的计算流程与结构如图 3 所示。 GAN 在基于梯度下降训练时存在梯度消失的 问题, 因为当真实样本和生成样本之间具有极小重 叠甚至没有重叠时, 其目标函数的 Jensen-Shannon散度是一个常数, 导致优化目标不连续. 为了解决 训练梯度消失问题, Arjovsky 等[29] 提出了 Wasser- stein GAN (W-GAN). W-GAN 用 Earth-Mover 代 替 Jensen-Shannon 散度来度量真实样本和生成样 本分布之间的距离, 用一个批评函数 f 来对应 GAN的判别器, 而且批评函数 f 需要建立在 Lipschitz 连 续性假设上. 另外, GAN 的判别器 D 具有无限的 建模能力, 无论真实样本和生成的样本有多复杂, 判 别器 D 都能把它们区分开, 这容易导致过拟合问题。 为了限制模型的建模能力, Qi[30] 提出了 Loss- sensitive GAN (LS-GAN), 将最小化目标函数得到 的损失函数限定在满足 Lipschitz 连续性函数类上,作者还给出了梯度消失时的定量分析结果. 需要指 出, W-GAN 和 LS-GAN 并没有改变 GAN 模型的 结构, 只是在优化方法上进行了改进。GAN 的训练只需要数据源的标注信息 (真或 伪), 并根据判别器输出来优化. Odena[31] 提出了 Semi-GAN, 将真实数据的标注信息加入判别器 D的训练. 更进一步, Conditional GAN (CGAN)[32]提出加入额外的信息 y 到 G、D 和真实数据来建模,这里的 y 可以是标签或其他辅助信息. 传统 GAN都是学习一个生成式模型来把隐变量分布映射到复杂真实数据分布上, Donahue 等[33] 提出一种 Bidi- rectional GANs (BiGANs) 来实现将复杂数据映射 到隐变量空间, 从而实现特征学习. 除了 GAN 的基 本框架, BiGANs 额外加入了一个解码器 Q 用于将 真实数据 x 映射到隐变量空间, 其优化问题转换为. InfoGAN[34] 是 GAN 的另一个重要扩展. GAN能够学得有效的语义特征, 但是输入噪声变量 z 的 特定变量维数和特定语义之间的关系不明确, 而 In- foGAN 能够获取输入的隐层变量和具体语义之间 的互信息. 具体实现就是把生成器 G 的输入分为 两部分z 和c, 这里z 和GAN 的输入一致, 而c被称为隐码, 这个隐码用于表征结构化隐层随机变 量和具体特定语义之间的隐含关系. GAN 设定了pG(x) = pG(x|c), 而实际上 c 与 G 的输出具有较强 的相关性. 用 G(z, c) 来表示生成器的输出, 作者[34]提出利用互信息 I(c; G(z, c)) 来表征两个数据的相 关程度, 用目标函数
来建模求解, 这里由于后验概率 p(c|x) 不能直接获 取, 需要引入变分分布来近似后验的下界来求得最优解。 (责任编辑:本港台直播) |