但是由此认为图形学比视觉简单,或者两者正好相反就错了,因为这两个学科本质上是一个硬币的两面,他们里面的核心是真实世界的物理规律和人的理解创造过程。计算机视觉和计算机图形二者的界限没有这么清晰。两者有很大一部分重叠的研究领域,比如三维重建,材质建模,人体动态捕捉和重建,计算摄像学等。而不重叠的领域又可以相互借鉴,可以用“一对好基友”来形容。 举例来说,我们看到一个图像的时候,图形学可以把背后的物理成像原理、场景中形状和材质的特性,以及相机成像中一些处理步骤告诉你,然后当人去设计理解这个图像的算法时,这些物理规律和特性可以帮助大家对图像加入合适的先验假设和条件,从而得到更为有效的视觉算法。另一方面,视觉对图形学的研究也有很大的启发和帮助。为了生成真实感的图形,创建逼真的三维场景,我们的内容从哪里来?这就需要视觉中很多技术的帮助。童欣说:“比如我做一个可乐罐子,我可以拿相机拍下来做三维重构,也可以通过拍摄大量的图片直接重现这个可乐罐子在不同视角,不同光照下的图片。” 深度学习并不会席卷计算机图形学,也不可能解决所有问题 谈到机器学习和计算机图形学关系,童欣认为:“图形学其实一直是个开放的领域。很多人好奇我们图形学到底用不用机器学习技术,我们其实很早就在使用了,但是在图形学研究里,j2直播,我们称这类方法为数据驱动的方法。数据驱动在图形学的历史非常悠久,现在当然也包括了深度学习这一技术。” 和计算机视觉中深度学习已经渗透到几乎每一分支不同,深度学习似乎目前尚未席卷计算机图形学(Computer Graphics)的各个领域。对此,童欣认为,这方面的原因有几个方面。一方面,图形学中使用的三维表达多种多样,并没有统一的表达。和图像、视频这些表达不同,如何有效的设计一个通用的针对3D 图形数据的深度学习模型(就像专为图片设计的深度卷积神经网络CNN)还是大家在研究的一个热点问题。另外,在图形学的很多领域,大规模高质量的数据集还很缺乏。如何有效的产生这些高质量的图形数据本身就是图形学研究中的核心问题。最后,在图形学很多领域,比如绘制,大家对结果的物理正确性和算法实时性有非常高的要求,在这些方面如何有效的利用机器学习技术,包括深度学习技术,发展出比目前的算法更好的解决方案,还需要解决很多问题。 同时童欣提到,挑战也是机遇。在近几年中,图形学研究中大家也开始积极探索如何利用深度学习技术解决不同的图形学问题。在今年的SIGGRAPH上也出现了很多深度学习、和机器学习相关的论文,其中很多都是有华人作者参与的。除了微软亚洲研究院发表的三项相关的工作,国防科大徐凯副教授等人在形状的结构分析方面的工作,港大的俞益州教授和潘晓光博士等人在基于草图的人脸表情建模方面的工作都是非常具有启发性的工作。从这两年的论文也可以看到机器学习,特别是深度学习也得到了图形学研究人员越来越多的关注。 最后童欣评论道:“深度学习是个很好的工具,但是在图形学里,很可能深度学习并不会席卷一切,也不可能解决所有的问题。因为内容的生成本质上是比图像理解更难的一个问题。一方面我们希望能够理解人们的语义和描述,能够把这些歧义的抽象的想象和描述变成具体的确定性的图形内容。另一方面,我们要求生成的内容必须具有物理的合理性,同时具有丰富逼真的细节。这一逆向的生成过程在深度学习中,也是大家目前才刚刚探索的一个问题。最后可能还是百花齐放,殊途同归,通过不同方法的结合达到最终的目标。” 基于八叉树的卷积神经网络,降低三维形状分析计算量 在采访中,童欣也简单介绍了微软亚洲研究院今年在SIGGRAPH上发表的三篇和深度学习有关的论文。第一个是用于三维形状分析的基于八叉树的卷积神经网络。 通常用CNN做二维图像分析效果很不错,Nvidia也有专门的库。但是3D图形一般用不规则连接的三角形网格,或者点云来表达,那么如何把处理规则数据的CNN用在处理不规则的三角形网格或者点云上?就变成了大家首先要解决的问题。 传统的数据表达会导致计算太复杂! (责任编辑:本港台直播) |