我们的研究表明这能实现高真实度的图像生成——这在定性评估和用户研究上都得到了证明。我们通过训练用于注视估计和手姿态估计(gaze estimation and hand pose estimation)的模型而对生成的图像进行了量化评估。研究表明我们在使用合成图像上实现了显著的提升,并且在没有任何有标签的真实数据的情况下实现了在 MPIIGaze 数据集上的当前最佳结果。
算法
图 1:模拟+无监督(S+U)学习。其任务是使用无标签的真实数据从模拟器中学习能够提升合成图像的真实度的模型,同时还能保留其标注信息。
图 2:SimGAN 概览。我们使用一个 refiner 神经网络 R 来改善模拟器的输出;该神经网络可以最小化局部对抗损失和一个「自正则化(selfregularization)」项的组合。这个对抗损失会试图欺骗一个判别器网络 D,j2直播,而 D 则需要试图区分一张图像是否是真实的。上述的「自正则化」项可以最小化合成图像和改善过的图像的之间的图像差异。这保留了标注信息(即注视方向),使得改善过的图像可以用于训练机器学习模型。该 refiner 网络 R 和判别器网络 D 是交替更新的。
图 3:局部对抗损失(local adversarial loss)的图示。该判别器网络输出一个 w×h 的概率图。其对抗损失函数是在局部 patch 上的交叉熵损失(cross-entropy losses)的总和。
图 4:使用改善过的图像的历史(history of refined images)的图示
图 9:使用一个改善过的图像的历史来更新判别器。(左图)合成图像;(中图)使用改善过的图像的历史所得到的结果;(右图)没有使用改善过的图像的历史所得到的结果(而仅仅使用了时间最近的改善过的图像)。我们可以观察到明显的没有真实感的伪像,尤其是在眼角附近。
图 11:来自 NYU 手势数据集 [35] 的改善过的测试图像样本。(左图)真实图像;(右图)合成图像(上)和对应的 refiner 网络输出的改善过的图像。在真实图像中最大的噪声源是不平滑的深度边界(non-smooth depth boundaries)。该 refiner 网络学习了建模真实图像中的噪声存在,重要的是其不需要任何真实图像的标签。 点击阅读原文查看论文 原文链接:https://techcrunch.com/2016/12/26/apple-leaps-into-ai-research-with-improved-simulated-unsupervised-learning/ ©本文由机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |