在每一步,输入之前的全图增强结果,直播,使用策略网络选取全图的一块区域,并通过局部增强网络进行图像增强,增强的结果将拷贝并覆盖至原图,并作为下一步的输入。重复该步骤T次,得到最终的复原结果。 策略网络和局部增强网络模型细节过程如图3所示: 图3 策略网络和局部增强网络模型细节过程 在每一步中,策略网络的输入为上一轮产生的“状态”。“状态”包含两个部分,一部分是之前所有步骤在全图的局部增强结果,另一部分是S3中策略网络里长短期记忆网络产生的隐向量。策略网络将输入图像拉成一个长向量,经过一个全连接层,和一个长短期记忆网络产生一个512维的隐变量,该隐变量通过全连接层输出原图大小的概率图。我们依据概率图,随机采样出一个固定大小的图像区域。 局部增强网络则同样将之前的增强结果使用两层全连接层进行编码,然后通过另一层全连接层缩放至和选择区域同样大小的特征图,并和图像区域合并在一起,经过卷积神经网络得到增强的图像区域,放回到输入图像中。 我们使用两种不同的训练方法来同时训练策略网络和局部增强网络。对于局部增强网络,我们使用选择区域和高分辨图像区域的均方误差作为损失函数,使用梯度下降的方法训练网络。而策略网络的区域选择并没有监督信息,我们使用强化学习的方法进行训练。设定奖励信号R为最后恢复出的图像与原始的高分辨率图像之间的均方误差。这种延迟的全局奖励信号能训练策略网络,使得网络更多的考虑整个序列选择的区域和选择的顺序,提高最终的恢复效果。 实验: 我们在LFW和BioID数据集上测试了8倍降采样和4倍降采样人脸图像的恢复效果,相比于之前的方法有了较大的提高: 图4. 部分复原图像的可视化结果: 图4 附录: 1. 论文信息: “Attention-AwareFace Hallucination via Deep Reinforcement Learning”, Qingxing Cao, Liang Lin*, Yukai Shi,Xiaodan Liang, and Guanbin Li,roc. of IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2017. 2. 中山大学人机物智能融合实验室官网对应论文链接: (责任编辑:本港台直播) |