术,具象或者实际的释义是技艺,比如技术、艺术、学术,atv,或者武术。抽象和哲学地说就是方法论,战术、权术。古人用以指代城市中的道路。用今天的话说,数术即算法,古人很科技。在所有讲究“术”的行业,越大众越反科学。创建【术说】栏目,就是想邀请一线的工程师、开发人员、技术精英,从技术思维出发,用科学逻辑去分析科技趋势、行业现象,论述观点、点评产品。跟大家一起来聊聊VR/AR,人工智能——这些原本就建立在极高技术基础上的“西部世界”。 上个月末,Facebook在开发者大会上曝光了Surround 360系列的升级版相机x24和x6,可以通过算法和云端处理生成360°视频的深度信息,实现6自由度的3D 360°视频。无独有偶,一直致力于光场技术的Lytro公司也在同期曝光光场相机Immerge升级版的Demo信息。一时间,深度信息和6自由度(6DOF)成为VR影像领域的热点话题。 IN2近日采访到Deepano(狄拍科技)的创始人李翔和CTO徐抗,请两位专家详解关于360°视频深度信息和6自由度视频等技术问题,以及相关技术在VR视频领域的应用。 术说人:徐抗 Deepano CTO 徐抗,Deepano(狄拍科技)CTO,曾就职于联想、日本施乐。多视几何专家,上海交大硕士。海外留学,6年+计算机视觉研究经验,拥有多篇专利。 Deepano(狄拍科技)成立于2016年,创始人李翔曾经担任联想AR/VR 产品经理及核心技术负责人,是联想乐phone核心技术负责人。团队的核心成员力来源于联想核心计算机视觉研发团队,是国内最早从事AR/VR核心技术研发的团队之一,2012年以来,就一直在联想研究院负责ARVR相关核心技术的研发工作。 关于360°视频深度信息的基础知识 问题:什么是深度信息?360°视频中的深度信息指的是什么? 徐抗:深度信息是指视频/照片中每个像素在具有色彩信息以外,还带有一个深度信息,即我们通常所说的RGBD,表示的是该像素距离相机成像平面的距离。 而360度视频的深度信息则是周围360度空间中的所有像素点,都带有距离信息,即提供了丰富的360度场景结构信息。
问题:深度信息产生/生成的方式有哪些? 徐抗:深度信息的捕获主要分为主动和被动两种。 主动方式包括激光雷达和结构光(Kinect一代)和ToF(Kinect One)等。HypeVR前段时间展示的六自由度视频则是采用激光雷达的方式获取场景深度,据其介绍数据量达到了3GB每帧。 被动方式则主要通过计算机视觉的方式(Multi View Stereo, MVS),利用多张照片来计算出场景深度,Lytro的Immerge,Facebook的x24,Google的Jump都属于这种方式。 问题:准确的深度信息捕捉/生成的技术难点在哪里 徐抗:不同的技术方案都存在各自的局限性,目前并没有一种各方面都明显优于其他方案的深度获取方式。 主动式深度获取设备根据其类型不同,存在成本高(LiDAR),室外不工作(红外结构光),多径干扰(ToF),多个设备之间互相干扰的问题。 被动式获取方式,这里主要讨论基于三角测量的多视立体匹配(Multi View Stereo,MVS)。 MVS作为一个古老的计算机视觉领域,已经有了几十年的研究历史,这也是Facebook x24,Google Jump和Deepano所采用的深度获取方式。其技术难点主要包括计算量大、优秀的MVS算法很难实时处理、鲁棒性受环境影响大、暗光环境下不工作等。其中,鲁棒性是制约MVS算法的一大因素,也是近年来各界一直在努力提升的方面。
场景中的低纹理区域(一整面白墙),重复性纹理区域(比如一整面马赛克的墙),透明物体(玻璃),高反光物体(镜子)、前后景之间的遮挡(occlusion/disocclusion)等都对MVS算法的鲁棒性提出了挑战。 另外,相机阵列之间的空间位置关系标定、不同相机之间的ISP(曝光,白平衡)一致性、镜头畸变校正、广角/鱼眼镜头的渐晕现象校正、相机帧同步等也都对MVS算法有着重要影响。
Lytro公司曝光的升级版Immerge相机 Facebook、Lytro和Adobe等公司的解决方案 问题:Facebook的x24和Lytro公司的Immerge相机的深度信息产生的不同? (责任编辑:本港台直播) |