图 3 中的网络是为 128×128 输入设计的,有 100 万个参数。对于更大的输入,比如 256×256 或 512×512,其可以直接推断出带有额外分支的架构。该网络的输出仅从最高分辨率的分支中获得。 2.2 损失函数
图 4:光照网络是一个 siamese network,其被训练用于最大化带有不同光照情况的图像(输入 A 和 C)之间的距离和最小化带有同等光照的图像(输入 A 和 B)之间的距离。这个距离被定义成了全连接层的特征空间中的一个 L2 范数(norm)。所有的输入图像都与同一张基准脸进行了对齐,这和对变换网络的输入的处理一样。 3. 实验 3.1. CageNet 和 SwiftNet 我们训练了一个变换网络来执行与尼古拉斯·凯奇(Nicolas Cage)的面部交换,为此我们在互联网上收集了他大约 60 张不同姿势和不同表情的照片。为了进一步增加风格图像的数量,每一张图像还都进行了水平翻转。至于内容图像源,我们使用了包含超过 20 万张名人图像的 CelebA 数据集 [20]。 为了测试我们的结果泛化到其它身份的情况,我们还使用了大约 60 张泰勒·斯威夫特(Taylor Swift)的照片训练了一个同样的变换网络。我们发现在同样的超参数(hyperparameter)下,这两个网络实现了质量相近的结果(图 5b)。
图 5:(a)原始图像;(b)上一行:使用尼古拉斯·凯奇的变脸结果,下一行:使用泰勒·斯威夫特的变脸结果;(c)上一行:CageNet 的原始输出,下一行:SwiftNet 的输出。注意我们的方法怎样改变了鼻子、眼睛、眉毛、嘴唇和面部皱纹的外观。其保持了凝视方向、姿势和唇部表情的完好,而且是以一种对目标身份来说很自然的方式。 图 6 给出了向目标函数加入光照损失(lighting loss)所产生的影响。当没有包含这样的损失的时候,CageNet 会生成光照均匀、缺乏阴影的图像。
图 6:左图:原始图像;中图:带有光照损失训练的 CageNet 的结果;右图:不带光照损失训练的 CageNet 的结果 和之前的成果比较,j2直播,我们发现我们的风格迁移结果严重依赖于风格权重和内容权重之间的平衡 [8]。我们还使用变化的风格权重训练了几个网络。图 7 的结果表明当风格权重较大时,该网络会忽略面部表情,而似乎会直接从风格集合中复制一张最适合的图像。有趣的是,该网络仍然能够检测和保存输入图像的姿势。这意味着用大的风格权重训练的网络能够再现 Bitouk et al. [2] 中类似的卷积面部交换。
图 7:左图:原始图像;中图和右图:在风格权重分别为 α = 80 和 α = 120 的 256×256 图像上训练的 CageNet 后面,我们探索了我们的方法的一些失败案例。我们注意到我们的网络在前向视角上比在侧向视角上效果更好。在图 8 中,我们可以看到随着我们从侧向视角转向正向视角,其脸会变得越来越像尼古拉斯·凯奇。这可能是由数据的不平衡导致的。我们的训练集(CelebA)和风格图像中的正向图像比侧向图像多很多,因为正向图像在互联网上也更为普遍。
图 8:上一列:原始图像;下一列:与尼古拉斯·凯奇的对应变脸结果。可以看到随着脸从侧向转向正向,结果图像的脸也越来越凯奇了。 图 9 给出了其它一些我们的方法无法很好处理的样本。特别是当有眼镜这些东西的时候,眼镜会被移除,atv,然后留下一些奇怪的东西。
图 9:有问题的案例。左图和中图:面部遮挡,在这两个例子中,眼镜被移除,但还是留下了一些东西。中图:闭着的眼睛没有被正确地交换,因为在风格集中没有这样的表情图像。右图:因为姿势、表情和发型太困难,结果非常差。 ©本文为机器之心编译文章,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |