参与:王宇欣、hustcxy、黄小天 卷积神经网络(CNN)的作用远不止分类那么简单!在本文中,我们将看到卷积神经网络(CNN)如何在图像实例分割任务中提升其结果。 自从 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年赢得了 ImageNet 的冠军,卷积神经网络就成为了分割图像的黄金准则。事实上,从那时起,卷积神经网络不断获得完善,并已在 ImageNet 挑战上超越人类。
现在,卷积神经网络在 ImageNet 的表现已超越人类。图中 y 轴代表 ImageNet 错误率。 虽然这些结果令人印象深刻,但与真实的人类视觉理解的多样性和复杂性相比,图像分类还是简单得多。 分类挑战赛使用的图像实例。注意图像的构图以及对象的唯一性。 在分类中,图像的焦点通常是一个单一目标,任务即是对图像进行简单描述(见上文)。但是当我们在观察周遭世界时,我们处理的任务相对复杂的多。
现实中的情景通常由许多不同的互相重叠的目标、背景以及行为构成。 我们看到的情景包含多个互相重叠的目标以及不同的背景,并且我们不仅要分类这些不同的目标还要识别其边界、差异以及彼此的关系!
在图像分割中,我们的目的是对图像中的不同目标进行分类,并确定其边界。来源:Mask R-CNN 卷积神经网络可以帮我们处理如此复杂的任务吗?也就是说,给定一个更为复杂的图像,我们是否可以使用卷积神经网络识别图像中不同的物体及其边界?事实上,正如 Ross Girshick 和其同事在过去几年所做的那样,答案毫无疑问是肯定的。 本文的目标 在本文中,我们将介绍目标检测和分割的某些主流技术背后的直观知识,并了解其演变历程。具体来说,我们将介绍 R-CNN(区域 CNN),卷积神经网络在这个问题上的最初的应用,及变体 Fast R-CNN 和 Faster R-CNN。最后,我们将介绍 Facebook Research 最近发布的一篇文章 Mask R-CNN,它扩展了这种对象检测技术从而可以实现像素级分割。上述四篇论文的链接如下: 1. R-CNN: https://arxiv.org/abs/1311.2524 2. Fast R-CNN: https://arxiv.org/abs/1504.08083 3. Faster R-CNN: https://arxiv.org/abs/1506.01497 4. Mask R-CNN: https://arxiv.org/abs/1703.06870 2014 年:R-CNN - 首次将 CNN 用于目标检测 目标检测算法,比如 R-CNN,可分析图像并识别主要对象的位置和类别。 受到多伦多大学 Hinton 实验室的研究的启发,加州伯克利大学一个由 Jitendra Malik 领导的小组,问了他们自己一个在今天看来似乎是不可避免的问题: Krizhevsky et. al 的研究成果可在何种程度上被推广至目标检测? 目标检测是一种找到图像中的不同目标并进行分类的任务(如上图所示)。通过在 PASCAL VOC Challenge 测试(一个知名的对象检测挑战赛,类似于 ImageNet),由 Ross Girshick(将在下文细讲)、Jeff Donahue 和 Trevor Darrel 组成的团队发现这个问题确实可通过 Krizhevsky 的研究结果获得解决。他们写道: Krizhevsky et. al 第一次提出:相比基于更简单、HOG 般的特征的系统,卷及神经网络可显著提升 PASCAL VOC 上的目标检测性能。 现在让我们花点时间来了解他们的架构 R-CNN 的运作的方式。 理解 R-CNN R-CNN 的目的为接收图像,并正确识别图像中主要目标(通过边界框)的位置。 输入:图像 输出:边界框+图像中每个目标的标注 但是我们如何找出这些边界框的位置?R-CNN 做了我们也可以直观做到的——在图像中假设了一系列边界,看它们是否可以真的对应一个目标。 (责任编辑:本港台直播) |