图4 图像着色的深度学习网络结构和效果。输入黑白图像后即分为两支,上侧一支用于图像着色,下侧一支用于图像分类。在图中红色部分(Fusion layer),两支的深度特征信息进行融合,由于包含了分类网络特征,因此可以起到“用分类结果为依据辅助图像着色”的效果◆◆ ◆看图说话(Image Caption) 人们常说“图文并茂”,文字是除图像之外另一种描述世界的方式。近期,一项名为“Image Caption”的研究逐渐升温起来,其主要目的是通过计算机视觉和机器学习的方法实现对一张图像自动地生成人类自然语言的描述,即“看图说话”。一般来讲,在Image Caption中,CNN用来获取图像的特征,接着将图像特征作为语言模型LSTM(RNN的一种)的输入,整体作为一个End-to-End的结构进行联合训练,最终输出对图像的语言描述(如图5所示)。 图5 Image Caption网络结构。图像作为输入,首先经过微调后的多标记(Multi-Label)分类网络得到预测的类别标签,并以此连同图像的深度特征作为下方语言模型LSTM的输入,直播,最终进行联合训练。下图左一可完成Image Caption任务,左2为单个单词图像问答任务,右1为句子级别的图像问答任务◆◆ ◆人像复原(Sketch Inversion) 就在六月初,荷兰科学家在arXiv上发布了他们的最新研究成果——通过深度网络对人脸轮廓图进行“复原”。如图6所示,在模型训练阶段,首先对真实的人脸图像利用传统的线下边缘化方法获得对应人脸的轮廓图,并以原图和轮廓图组成的“图像对”作为深度网络的输入,进行类似超分辨率重建的模型训练。在预测阶段,输入为人脸轮廓(左二Sketch),经过卷积神经网络的层层抽象和后续的“还原”操作,可以逐步把相片般的人脸图像复原出来(右一),与最左边的人脸真实图像对比,足够以假乱真。在模型流程图下还另外展示了一些人像复原的结果,左侧一列为真实人像,中间列为画家手工描绘的人脸轮廓图,并以此作为网络输入进行人像复原,最终得到右侧一列的复原结果——目测以后刑侦警察再也不用苦练美术了。 图6 人像复原算法流程及效果◆◆ ◆图像自动生成 回顾刚才的四个工作,其实它们的共同点是仍然需要依靠一些“素材”方可“无中生有”,例如“人像复原”还是需要一个轮廓画才可以恢复人像。接下来的这个工作则可以做到由任意一条随机向量生成一张逼近真实场景的图像。 “无监督学习”可谓是计算机视觉领域的圣杯。最近该方向的一项开创性工作是由Ian Goodfellow和Yoshua Bengio等提出的“生成对抗网络”(Generative Adversarial Nets, GAN)。该工作的灵感来自博弈论中的零和博弈。在二元零和博弈中,两位博弈方的利益之和为零或一个常数,即一方有所得,另一方必有所失。而GAN中的两位博弈方分别由一个“判别式网络”和一个“生成式网络”充当,如图7所示。 图7 生成式网络和判别式网络 其中,“判别式网络”的输入为图像,其作用为判断一张图像是真实的,还是由计算机生成的像;“生成式网络”的输入为一条随机向量,可以通过网络“生成”一张合成图像。这张合成图像亦可作为“判别式网络”的输入,只是此时,在理想情况下应能判断出它是由计算机生成的。 接下来,GAN中的零和博弈就发生在“判别式网络”和“生成式网络”上:“生成式网络”想方设法的让自己生成的图像逼近真实图像,从而可以“骗过”“判别式网络”;而“判别式网络”也时刻提高警惕,防止“生成式网络”蒙混过关……你来我往,如此迭代下去,颇有点“左右互搏”的意味。GAN整个过程的最终目标是习得一个可以逼近真实数据分布的“生成式网络”,从而掌握整体真实数据的分布情况,因此取名“生成对抗网络”。需要强调的是,GAN不再像传统的监督式深度学习那样需要海量带有类别标记的图像,它不需任何图像标记即可训练,也就是进行无监督条件下的深度学习。2016年初,在GAN的基础上,Indico Research和Facebook AI实验室将GAN用深度卷积神经网络进行实现(称作DCGAN,Deep Convolutional GAN),工作发表在国际表示学习重要会议ICLR 2016上,并在无监督深度学习模型中取得了当时最好的效果。图8展示了一些由DCGAN生成的卧室图像。 图8 DCGAN生成的卧室图像 更为有趣的是,DCGAN还可以像word2vec一样支持图像“语义”层面的加减(如图9所示)。 图9 DCGAN“语义加减”示意 (责任编辑:本港台直播) |