上周我们发布的”一文引发了众多读者的围观,不少Geek都对背后的技术细节充满了浓厚的兴趣。那么,今天就让我们为大家详细解读一下风格迁移相关技术的研究新成果。 如今,风格迁移(style transfer)迅速成为人工智能(AI)研究领域的热门话题之一。一些艺术画风格的图片处理工具,如:Prisma、Icon8、DeepArt、Ostagram等风靡全球,它们使用人工智能算法将普通的生活照片变身为大师级艺术风格照。实际上,风格迁移是一种对图片风格进行转换的技术,运用这种技术,atv直播,我们可以很容易地让普通照片拥有强烈的艺术感和艺术效果(如下图)。广义上来说,它包括颜色、纹理、艺术表现形式之间的风格转换。
虽然相关应用和处理工具近几年才受人追捧,但其实这种技术在视觉领域已经被研究了很长一段时间了。过去的技术只能简单地处理一些颜色、纹理的合成,对于特别抽象的艺术风格,必须要有针对性,需一种一种风格进行区别地处理。然而最近随着深度学习的发展,已经有一些利用神经网络来处理风格迁移的方法了。这些方法更具普适性、能自如地处理很难的风格转化。目前这些风格迁移的方法主要可以分为两类: 1. 基于优化(optimization)的方法,如Gatys[4],Li[6],这些方法能够产生非常不错的风格迁移效果,但需要数分钟的优化迭代才能产生最终的结果。 2. 前馈神经网络(feed-forward network)的方法,如Johnson[5],Ulyanov[7]。这些方法针对不同的风格图片训练了不同的前馈神经网络 ( feed-forward network)。随之原来耗时的优化过程被一次网络的前传(forward)所替代,基本可以实现实时的风格迁移。但这些方法有两个非常重要的缺陷:一是对于不同的风格图片,都需要训练一个单独的网络模型, 不仅耗时而且需要大量的存储空间;二是这些训练好的神经网络像一个黑盒子(black-box ) 一样,无从得知它真正有效的工作原理。
就在最近,微软亚洲研究院视觉计算组的研究员和实习生们陆续地发表了三篇关于艺术风格化的论文。让我们一起来探究其中的新技术和新成果! 1. StyleBank: 语义内容和艺术风格化可分离学习的神经网络
针对多风格迁移的问题,微软亚洲研究院的研究员们提出了一种新的风格迁移算法,并发表在了CVPR 2017。该算法对图像的风格提供了一种显式的表达“风格基元” ( StyleBank ),并与传统的纹理合成技术中的纹理基元(texton ) 联系起来,通过对不同风格的图片使用不同的“风格基元”,再用简单的自解码器模型 ( auto-encoder ) 便可以实现不同风格的迁移。而且在训练的过程中,显式地对图像的内容和风格进行分离 ( decouple ) ,让图像自解码器与风格基元之间的学习相互独立,由此给风格迁移的实际用途带来了诸多好处:可以做到快速训练 (将一种艺术风格效果的训练时间从4-5小时减少到10分钟以内),快速调整想要的效果图,从而实现多种风格间的融合;还可以做到对图片的某一部分进行风格提取,再融合到目标图片上。 这个想法源于经典的纹理合成算法。纹理合成可以等效为纹理基元和位置脉冲函数(Delta function)之间的卷积。与之类似,我们也希望能够将基于神经网络的风格迁移等效为图片特征响应与特定风格基元的卷积, 只不过这个卷积是定义在高维的特征空间而不是原始的图像空间,不同的风格会对应不同的风格基元。
虽然不同的风格被表示为不同的风格基元,但却共享相同的自编码器。在训练过程中,我们可以把上面的网络分成两个独立的分支(如下图): 自编码器分支(Auto-encoder branch,实线)和风格化分支(Stylizing branch,虚线), 通过切换学习,从而对图像的内容和风格的进行分离。
风格基元(StyleBank)的神经网络结构图 (责任编辑:本港台直播) |