PoseNet是一种单目六自由度的重定位算法。此算法可以解决著名的“被绑架的机器人(https://en.wikipedia.org/wiki/Kidnapped_robot_problem)”问题。 在ICCV 2015上发表的第一篇论文中,笔者通过训练端到端的映射模型来解决此问题,将输入图像映射到六自由度的照相机姿态。此方法把整个问题看做一只黑盒。在今年CVPR发表的论文(https://arxiv.org/pdf/1704.00390.pdf)中,有用几何学原理做了改进,不再将学习照相机姿态和方向作为两个独立的回归目标,而是用几何重投影误差联合训练。效果得到了显著提升。
立体视觉深度预测 立体算法通常是指通过观察两幅校准图像对之间的差异来获得人造立体效应的过程。这就是所谓的视差,它在相应的像素位置与场景深度成反比。因此,基本上可以将问题简化为一个匹配问题,即从左、右图像分别找到对象之间的对应关系,以此来计算深度。 最先进的立体算法还是以深度学习技术为主导,但也仅用于构建匹配特征。深度估计所需的匹配和正则化步骤还未用到深度学习。 笔者从几何学的角度提出了GC-Net(https://arxiv.org/pdf/1703.04309.pdf)网络结构。众所周知,我们可以利用沿着单目视差线构成的cost volume来估计视差。该文的新颖之处在于如何用回归模型来对cost volume的几何形状建模。更多细节可以参考这篇论文(https://arxiv.org/pdf/1703.04309.pdf)。
GC-Net结构图,它利用几何形状的显示表示来预测深度。 总结 本文的主要内容可以归纳为以下两点: 理解计算机视觉领域的经典解决方案很有裨益(尤其当读者的研究背景是机器学习或者数据科学); 如果能够借鉴几何特性来构建网络,机器学习模型会变得更简单和有效。 原文链接:
在线直播 | 人工智能核心技术解析与应用实战峰会由CSDN学院倾力打造,力邀一线公司技术骨干做深度解读。五一特惠:199元即可听6位技术专家的在线分享,优惠价将于5月2日结束,扫描下方二维码报名: (责任编辑:本港台直播) |