为了更好的理解风格基元的工作原理,我们对训练学到的风格基元进行了可视化, 实际上它表达了风格图片中不同的纹理单元,而这与经典的纹理合成一脉相承。
风格基元(StyleBank)的优势: 与以往的前馈神经网络方法相比,可分离的表达和学习有诸多优势,如下表所示。
多风格协同训练 :与以往单风格模型相比(需要4小时训练一种风格),风格基元支持一个网络多风格协同训练,以50个风格为例,平均每个风格训练耗时16分钟,而试验中曾尝试过175个风格一起协同训练同一个网络。这样额外带来的好处就是可以大幅降低模型的大小,比如一个风格只需要0.56MB,而以往的模型如Johnson[5]则需要6.4MB。 快速增量训练: 对于新的风格图片或者超参配置,以前的单风格模型方法需要耗时几个小时重新训练一个模型。而在我们的方法中,由于对图片的内容和风格进行了分离,风格基元(StyleBank)与自编码器(Auto-encoder)的学习相互独立,因此,我们可以固定已经训练好的自编码器和已经训练好的风格的“风格基元”层,只训练与新的风格相关的风格基元层,而这个过程一般只需要8~10分钟。
左图展示增量学习和重新学习的效果差别,中间和右图分别展示了增量学习不同风格权重以及基于不同风格层设定的Loss的效果 快速风格切换:在实际应用场景(如APP滤镜)中,对于同一张图片,用户经常需要在不同风格(滤镜)间进行切换。对于我们的方法, 由于不同风格共享相同的自解码器,所以只需要对输入图片进行一次编码,这在不做其他优化的情况下,就节省了将近一半的计算量。
多风格线性融合:通过对不同风格的风格基元(StyleBank)进行组合,可以轻松实现不同风格的融合和过渡切换。 区域性风格融合:同样对不同的图片区域运用不同的风格基元,还可以对不同的图片区域渲染不同的风格效果。
2. Video Style Transfer: 实时在线处理时空一致的视频风格转换
在直播、短视频越来越流行的当下,对视频进行在线的风格转换也有着巨大的商业应用。但是如果不考虑视频的时序性,直接逐帧进行风格转换,那么转换后的视频通常都会有抖动和不连续的问题,而这是由单张图片风格转换本身的不稳定性所造成的。 为了解决该问题,微软亚洲研究院的研究员们提出了第一个端到端 ( end-to-end ) 的在线视频风格迁移模型 ( Coherent Online Video Style Transfer )。该模型通过考虑和传播短时(short-term)的时序信息来保证风格化视频的连续性和稳定性。此外,该模型已被证明可以应用到现有的单风格和多风格迁移网络上,并取得了相对于优化方法接近500倍的加速。
对于相邻帧的连续性,一个简单而自然的想法就是:对于可追踪的区域(如下图第一行红框所示),我们用前一帧对应区域的特征以保证连续性,而对于遮挡区域,即不可追踪(如下图第一行绿框所示),则用当前帧的特征。实际上,这可以分为传播(propagation)和合成(composition)两个子任务。与在原始图像空间相比,特征空间对噪声等有更好的鲁棒性,因此我们选择在特征空间完成这两个子任务。 (责任编辑:本港台直播) |