其中 x 和 y 分别表示低分辨率和高分辨率图像。一旦我们获得像素值的调节概率,就可以用高分辨率重建整个图像。我们可以在数据集中应用上述设置,用 y*表示真实的高分辨率图像,j2直播,从而能在数学上表示成目标函数。优化目标是使条件对数似然度目标(conditional log-likelihood objective)最大化,如下:
关键因素是构建最合适的输出像素值分布。这样我们才能够用锐利的细节得到最生动的高分辨率图像。 像素独立的超分辨率 简单的方式是假设每个预测像素值 y 有条件地独立于其他值,因此总概率 p(y | x)是每个独立估计值的乘积。 假设一幅给定的 RGB 图像具有三个颜色通道,并且每个通道拥有 M 个像素。两边同时取对数得到:
如果我们假设估计的输出值 y 连续,则公式(2)可以在高斯分布模型下重构为:
其中 y_i 表示通过卷积神经网络模型得到的非线性映射输出
,表示第 i 个输出像素的估计平均值。
表示方差,一般来说方差是已知的,而不是通过学习获得的,因此唯一需要学习的是均值和估计值之间的 L2 范数。然后,最大化对数似然(在(1)中表示)可以转化为 y 和 C 之间的 MSE(均方误差)最小化。最后,CNN 能够学习一组高斯参数以获得最佳平均值 C。 对于连续值,我们使用高斯模型,对于离散值,我们使用多项分布来模拟分布(数据集注明为 D),那么预测概率可以描述为:
因此我们的目标是学习以从预测模型中获得最优的 softmax 权值,
是三个通道下 K 个可能的离散像素值的 softmax 权值。 然而,该论文称,上述独立模型无法处理多模式(multi-modality)的情况,因此在某些特定任务中它的性能不如多模态能力方法,例如着色、超分辨率。其次它遵循 MNIST corner dataset 的实验演示(数字仅在左上角或右下角定位对象时相同)。 图 2:上图:图片表示了试验数据集(toy dataset)中输入输出对的一种创建方式****。下图:在这个数据集上训练的几个算法的预测示例。像素独立的 L2 回归和交叉熵模型没有表现出多模态预测。PixelCNN 输出是随机的,且多个样本时出现在每个角的概率各为 50%。 参考 MNIST 实验图,不同方法下的数字生成结果是不同的。像素交叉熵方法可以捕获脆性图像,但无法捕获随机双模态,因此数字对象出现在两个角落。类似的情况发生在 L2 回归方法上。最终在一个高分辨率输出图像中给出两个模糊数字。只有 PixelCNN 可以捕获位置信息和清晰的图像信息,这进一步说明了在所提出的模型中使用 PixelCNN 的优越性。 像素递归超分辨率 像素独立超分辨率方法被指出有局限性之后,它的解释被逐渐给出。新理论仍旨将给定样本 x 的对数似然度最大化。递归模型部分假定输出像素之间存在条件依赖关系。最后,为了近似这种联合分布,该递归方法使用链式法则来分解其条件分布:
其中每个输出有条件地依赖于输入和先前的输出像素:
那么嵌入 CNN 的像素递归超分辨率框架(参考以前的架构)可以说明如下:
输入 x,让
表示调节网络,得到一个对数值组成的向量,这些值是第 i 个输出像素的 K 个可能值的对数。 类似的,让
表示先前网络,得到由第 i 个输出像素的对数值组成的向量。 (责任编辑:本港台直播) |