wzatv:CVPR 2017完全指北：深度学习与计算机视觉融合的(2)_本港台直播_J2开奖直播

3D 视觉包含的主题有重建、分割等。与 2D 图像处理相比，额外的维度带来了更多不确定性，例如遮挡和不同的相机角度。研究者在处理这些不同的情况上投入了大量精力。来自普林斯顿大学的两个团队带来的两个演讲展示收获了最热烈的掌声：

1. 根据单一深度图像的语义场景完成（Semantic Scene Completion from a Single Depth Image）。这项研究的主要目标是根据单一图像重建目标。但是，3D 场景中固有的模糊性与不确定性会降低重建的准确度。为了解决这一问题，这篇论文提出了一种数据驱动的方法：使用作为知识库的大型数据集学习来构建神经网络。这种先验知识可以缓解物体被遮挡后识别率降低的痛苦。这个新模型可以通过识别周围的其它物体来推断一个物体；而先验知识可以极大地提升准确度。

2. 3DMatch：根据 RGB-D 重建学习局部几何描述（Learning Local Geometric Deors From RGB-D Reconstructions）。这篇论文也引入了用于先验知识的数据驱动的模型。为了应对训练数据不足的问题，他们使用了自监督学习（self-supervised learning）来生成数据，即从不同的角度，获取长程的对应关系 (correspondence)。

正如前面提到的，3D 维度的本质给研究者带来了噪声、低分辨率和扫描数据不完整的难题。当前的研究工作已经开始在获取全局语义含义并将它们与局部几何模式进行匹配。但是，当前数据集的规模大小可能已经无法支持前沿研究。因此下一步研究目标可能会转向为 3D 视觉开发设计合理的数据集。《使用环差滤波器的从焦点的噪声鲁棒深度（Noise Robust Depth From Focus Using a Ring Difference Filter）》、《使用最小监督来学习有噪声的大规模数据集（Learning From Noisy Large-Scale Datasets With Minimal Supervision）》、《用于 6D 物体姿态估计的全局假设生成（Global Hypothesis Generation for 6D Object Pose Estimation）》、《用作用于单眼深度估计的序列深度网络的多尺度连续 CRF（Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation）》等其它论文则旨在解决有噪声数据和估计问题。一位博士生说：「我的兴趣在于几何深度学习 (Geometric Deep Learning)，这将是新的趋势。」

目标识别与场景理解

目标识别是今年的又一主要主题。过去，研究者在识别单个物体和理解整体场景上投入了大量工作。但现在研究目标已经转向了识别单张图像中多个物体之间的关系。以论文《使用深度关系网络检测视觉关系（Detecting Visual Relationships with Deep Relational Networks》为例，这项研究提出了一种集成框架——不仅可用于分类单个物体，而且还能探索不同物体之间的视觉关系。

1. 走近看可以看得更好：用于细粒度图像识别的循环注意卷积神经网络（Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition）。这篇论文探讨了细粒度图像识别的两个难题：判别区域定位（discriminative region localization）和细粒度特征学习（fine-grained feature learning）。为了解决这些问题，论文作者引入了循环注意卷积神经网络以利用注意机制（这样网络就可以迭代式地越来越近地观察目标物体）来判别细微的差异。

2. 使用 Polygon-RNN 标注目标实例（Annotating Object Instances with a Polygon-RNN）。这篇论文荣获最佳论文荣誉提名奖。这项工作创造性地将物体标注问题形式化为了多边形预测问题，而不是传统的像素标注问题。当数据规模变成了深度学习的瓶颈时，快速获取数据就变得非常重要了；他们的研究成果为研究者提供了一种灵活的标注方法。

我们在 poster session 期间还发现了另一个有趣的研究成果：

图像和视频广告的自动理解（Automatic Understanding of Image and Video Advertisements）。广告的目的是要暗示性地劝说客户采取特定的行动。理解广告不仅需要识别实体内容。这项研究覆盖了 38 个主题和 30 种情绪，可以通过象征意义将实体内容与抽象概念链接起来。

人物肖像分析

因为公共安全受到的威胁日益增大，对人员识别和行人检测的需求也正快速增长。幸运的是，与这一领域相关的大量应用和扩展理论正在持续涌现。

这两篇论文在演示期间收获了非常热烈的掌声：

1. 自然环境中的人物再识别（Person Re-Identification in the Wild）。之前的研究都只是重在人物 re-ID 本身，而这项研究则将人物检测和人物 re-ID 结合了起来。他们提出了 ID 判别嵌入（IDE：ID-discriminative Embedding），因为这易于训练和测试。关于检测如何有助于人物 re-ID 的见解包括：

在 re-ID 应用下评估检测器的表现；

一种级联 IDE 微调策略：首先微调检测模型，然后微调 re-ID 模型。

(责任编辑：本港台直播)