人类独特的三维感知能力，计算机能学会吗？(2)_本港台直播_J2开奖直播

在上述步骤中，输入至检测器V中的是一张从已知视角得到观测图。从一个具有感觉功能的有机体的角度看，这是非常合理的。但是在非结构化的数据源（比如视频）的应用中，这就不那么合理了。在近期的另一篇文章中，我们介绍了视角需求是可以放宽条件的，直播，甚至，我们可以联结单张图像进行3D预测的学习。

人类独特的三维感知能力，计算机能学会吗？

具体而言，在这个案例中的检测器V是建立在一个可微的深度视角合成器的基础之上的，这个深度视角合成器会用预测的深度投影和来自源视角的像素来输出一个目标视角。这里的深度投影和摄影视角都要被预测，而其一致性是由像素重建失误定义的。通过场景几何学习与摄影视角的结合，我们能够在未经标签的视频片段上，无需直接的监督，就能完成对系统的训练。

人类独特的三维感知能力，计算机能学会吗？

我们是在KITTI和Cityscapes数据集上训练和评估我们的模型的，这两个数据集中包含了大量汽车行进中捕获的视频片段。下面的视频中一帧一帧地展示了我们的单视角深度网络做出的预测。

人类独特的三维感知能力，计算机能学会吗？

令人惊喜的是，我们的单视角深度模型虽然未经过实际标签的训练，但是与成熟的SLAM系统达到了持平的效果。

在计算机视觉下，没有3D监督的情况下学习单张图像的3D结构是一个激动人心的话题。把几何学作为学习系统和多视角训练数据间的桥梁，让我们轻松地避开繁琐的操作程序和高昂的操作成本。更宽泛地说，我们可以讲几何一致性是理解元监督的一种形式。我们相信这样的方式对训练其他数据缺乏的解决问题的模型都能够发挥起作用。

注：本文由「图普科技」编译，您可以关注微信公众号tuputech，体验基于深度学习的「图像识别」应用。返回搜狐，查看更多

(责任编辑：本港台直播)