一个直观的方案是在空间做一个规则网格的体素表达,这个形状占到了的体素就标记为1,否则就标记为0。如果把这个三维的规则网格直接用CNN做,运算复杂度会很大。分辨率稍微高一点,训练的内存开销和速度都会承受不了。往往一个32*32*32这么小的,连形状细节都看不清楚的规则网格都做不动。 另外一个解决方案是从各个角度绘制大量深度图,再把图片摞在一起来做CNN,这种方式可以解决很多问题。但是要拍多少张图片才够?从哪个角度绘制?我们没有统一的解决方案。如果形状有内部结构或着凹下去的部分,这种方法很可能会丢失这部分信息造成后面算法性能下降。还有一种方案是沿着表面做CNN。这样做的主要问题在于,这需要一个流形的形状表达,对点云却无能为力。同时,大部分表面无法没有误差的展开到一个平面上来一定有一些地方被拉伸或扭曲,也造成算法性能的损失。 童欣介绍:“我们的工作是,利用图形学中非常流行的八叉树结构,把空间一分为八,有物体的部分留着,没有的就标记后扔掉,留下的继续细分。在做卷积的时候,只在空间有物体的那个八叉树的分支上做。这样算法需要的空间和速度和做一张图像的复杂度相似,从而可以对更高分辨率的三维形状进行分析。基于这一想法,我们做了一个GPU上的优化实现,允许用户使用大部分基于图像的CNN模型,充分的发挥了CNN的优势。” CNN结合半监督学习结合,挑战表面材质生成难题 另外一项很重要的与深度学习相关的工作是:用深度学习自动生成物体表面材质。 什么叫表面材质?材质决定了物体在真实光照下的颜色,反光和表面的外观细节。光凭形状无法分辨这个可乐罐子是塑料的,还是金属的,是磨砂的,还是抛光的。只有加上材质信息,有了颜色,反光、高光等,我们才知道这是个铝的磨砂罐子。 材质在图形学渲染中非常重要。但是生成很真实的表面材质一直是一个很困难的事情。童欣表示:“一个有经验的艺术家可以根据自己的经验,从一张照片出发,通过Photoshop,j2直播,经过很多复杂的图像编辑操作,产生相应的材质贴图。那么如果艺术家可以做得很好,那我们可不可以利用深度学习技术从图片出发,自动做出高质量的材质贴图?” 可是,这里面的挑战是,如果我们用传统的CNN的训练方法,我们就需要输入很多照片和他们对应的真实材质的标定数据。但是我们很难找到大量的图片和对应的材质。否则我们也不需要研发这个工具了。 童欣说:“我们的解决方法是,能够利用用户给的少量输入图片和对应的材质标签,以及大量的Internet下载的没有材质标签的图片一起,通过一个新提出的自增强的训练方法结合绘制算法来训练CNN,这一方法取得了很好的效果。这是针对图形学问题的一个新的半监督学习的算法。我相信这一算法具有潜力来帮助解决更多的图形学视觉的问题。” 而另一项工作,则是微软亚洲研究院视觉计算组袁路和廖菁研究员等人所提出的新的图像风格化算法,可以生成高质量的和内容相关的图像风格化结果。这一成果也再次说明图形学、视觉研究之间的相关性。 VR只是媒体而AR是平台,四大技术快速发展,爆发期将近 VR/AR/MR 跟图形学是密切相关的一个应用方向。在这个方向上,微软已经发布了HoloLens这一在MR(混合现实)方向的主打产品。不仅仅微软,Facebook、苹果、谷歌等巨头也已涉足MR。对于这个方向,他也有一些观点。 大家喜欢把VR和MR/AR放在一起说,但是童欣认为两者有本质的不同——VR更多的是一种新的媒体形式。而MR/AR是一个新的平台,本质上是一个基于语义的地理位置的服务(semantic locationservice)。童欣说:“两者虽然也有一些共同点,但是在关键的应用场景上最终肯定要分道扬镳。” (责任编辑:本港台直播) |