ACM TOMM 2017最佳论文:让AI接手繁杂专业的图文排版设计工作 2017-08-10 21:01 来源:微软亚洲研究院 设计 /计算机 /微软 原标题:ACM TOMM 2017最佳论文:让AI接手繁杂专业的图文排版设计工作 编者按:你是否曾经为如何创作和编辑一篇图文并茂、排版精美的文章而烦恼?或是为缺乏艺术灵感和设计思路而痛苦?AI技术能否在艺术设计中帮助到我们?今天我们为大家介绍的这篇论文,“Automatic Generation of Visual-Textual Presentation Layout”(图文排版的自动生成算法研究),刚刚被美国计算机学会会刊ACM Transactions on Multimedia Computing, Communications and Applications (TOMM)授予2017 Nicolas D. Georganas 最佳论文奖,希望为大家在进行富媒体内容创作和分享时提供一个独到的思路和方法。 论文的联合作者是杨绪勇(微软亚洲研究院和中国科技大学联合培养博士生,喂车车联合创始人)、梅涛(微软亚洲研究院资深研究员,开奖,美国计算机协会杰出科学家,国际模式识别学会会士)、徐迎庆(前微软亚洲研究院主管研究员,清华大学美术学院信息艺术设计系主任)、芮勇(前微软亚洲研究院副院长,联想CTO)、李世鹏(前微软亚洲研究院副院长,硬蛋CTO)。祝贺研究院的各位研究员和院友们! 当今富媒体的内容之多是前所未有的,人们每时每刻都在创造和分享着海量信息,特别是内容繁杂的图像和文字信息,其中图文混排的内容模式已经成为主流。而在内容创作过程中,人们面临的一个巨大的挑战就是如何针对内容多样的图像和文字信息来设计吸引眼球的版面(例如,杂志封面、海报、或者PPT演讲稿等)。这个问题无论是对于商业印刷、在线期刊与杂志,还是用户生成的内容表达,都极为重要。图文内容的排版涉及到大量的专业知识,包括视觉传达、信息艺术设计、色彩与美学、平面规划、几何构图等等。以往的图文排版设计工作,不仅需要具有丰富专业知识的设计师,而且还耗费大量的人工。如何让计算机根据图文内容来自动进行排版是一个非常困难的问题。 从2013年底开始,来自微软亚洲研究院的研究员与来自清华大学美术学院的艺术设计专家,在这个科学与艺术相融合的领域开展了深入地合作。他们把设计学中的审美原则与可计算的图像特征相结合,创造性地提出了一个可计算的自动排版框架原型。该原型通过对一系列关键问题的优化(例如,嵌入在照片中的文字的视觉权重、视觉空间的配重、心理学中的色彩和谐因子、信息在视觉认知和语义理解上的重要性等),把视觉呈现、文字语义、设计原则、认知理解等领域专家的先验知识自然地集成到同一个多媒体计算框架之内,并且开创了“视觉文本版面自动设计”这一新的研究方向。 图1 利用算法自动产生的图文排版效果。注:原始输入是一张纯图片(即没有任何文字)和一段纯文本(如主标题和副标题等),输出是图文混排的结果(文字嵌入图片之中)。 这项研究将通用的美学感知进行了体系的数学表达,构建了一套和主题相关的图文排版设计模版库,并提出一套可计算的图文合成框架原型,既融合了宏观层面自上而下的美学感知,又包含了微观层面自下而上的图文特征。通过融合人脸、文字检测以及视觉显著性检测算法,率先提出了视觉注意力检测算法,构成了整幅图像的重要性图和注意力图;在针对文字布局的算法中,这篇论文将文字块的形状和图像中的重要性图交互过程量化为一个能量最优化问题: 是图1中文本侵入显著视觉对象的成本,即尽量减少文本和重要视觉对象的交叉; 表示空闲视觉空间的浪费,即充分利用图像中的可用视觉空间,以最大化文字的突出效应;而 则代表文本块的语义重要性 和视觉感知重要性 之间的不匹配,即将最重要的文字内容匹配到图像中最重要的视觉区域,以便于阅读时快速获得关键信息。能量最优化的求解过程,在设计模版的美学感知原则的监督下,使得最后的求解结果能符合视觉审美需求,而不仅仅是计算机的最优求解结果。 (责任编辑:本港台直播) |