不难理解,婴儿就曾使用初级的几何学来学习观看这个世界。根据美国眼科协会的统计,在生命的最初 9 个月中,人类学习协调眼睛来聚焦并感知深度、颜色与几何;直到第 12 个月,才会明白如何识别对象和语义。这说明几何学对于人类视觉的基础而言十分重要。在将这些洞见纳入计算机视觉模型时,我们一定会做得很好。
机器对世界的语义理解(a.k.a. SegNet)。每种颜色代表不同的语义分类,如道路、行人、标志等。 我的近期研究中的几何示例 我想通过两个具体示例结束本文,它们将解释如何在深度学习中运用几何学: 1.学习使用 PoseNet 进行重新定位 在本文的介绍中,我举出的 PoseNet 示例是一个单目 6 自由度(monocular 6-DOF)重新定位算法,它解决了所谓的机器人绑架问题。 在 ICCV 2015 的初稿中,我们通过学习由输入图像到 6 自由度拍照中姿势的端对端映射来解决这个问题,这一方法单纯地将问题看作了黑盒子。而在今年的 CVPR 中,我们通过考虑问题的几何学属性从而更新了这一方法。我们并未将拍照姿势与方向值作为单独的回归目标,atv,而是使用几何重现误差(geometric reprojection error)来一同学习。它说明了世界的几何性,结果也得到了显著改善。
2.用立体视觉预测深度 第二个示例是立体视觉,即以双目视觉估测深度。我曾有幸参去研究这个问题——在世界最先进的无人机上工作,与 Skydio 度过了一段美好的盛夏。 立体算法通常用于估测物体在一对整齐立体图像之间的水平位置差异,即视差,其与相应像素位置的场景深度成反比。因此它在本质上能被简化为一个匹配问题——找到左右图像中物体之间的对应关系,并且ni ke yi计算深度。 立体中性能最高的算法主要使用了深度学习,但仅限于构建匹配的功能。生产深度估测所需的匹配以及正规化步骤在很大程度上仍然是人工完成的。 我们提出了GC-Net 架构,但此次着重的是问题的基础几何。众所周知,在立体中我们可以在 1-D 视差线上通过成本量的形成来估测差异。本文的创新性在于,它展示了如何以可微分的方式将成本量的几何阐述为回归模型。本文还具有更多细节。
这是一篇关于 GC-Net 架构的概述,它运用几何的清晰表征来预测立体深度。 结论 我认为本文传达的关键信息是: 了解解决计算机视觉问题的经典方法是值得的(尤其你具有机器学习或数据科学背景)。 若能将架构结构化以利用问题的几何属性,则使用深度学习来研究复杂表征便会更加容易与有效。 本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |