【j2开奖】深度 | 用于图像分割的卷积神经网络：从R(2)_本港台直播_J2开奖直播

通过多个尺度的窗口选择性搜索，并搜寻共享纹理、颜色或强度的相邻像素。图片来源：https：//www.koen.me/research/pub/uijlings-ijcv2013-draft.pdf

R-CNN 创造了这些边界框，或者区域提案（region proposal）关于这个被称为选择性搜索（Selective Search）的方法，可在这里（链接：）阅读更多信息。在高级别中，选择性搜索（如上图所示）通过不同尺寸的窗口查看图像，并且对于不同尺寸，其尝试通过纹理、颜色或强度将相邻像素归类，以识别物体。

【j2开奖】深度 | 用于图像分割的卷积神经网络：从R

在创建一组区域提案（region proposal）后，R-CNN 只需将图像传递给修改版的 AlexNet 以确定其是否为有效区域。

一旦创建了这些提案，R-CNN 简单地将该区域卷曲到一个标准的平方尺寸，并将其传递给修改版的 AlexNet（ImageNet 2012 的冠军版本，其启发了 R-CNN），如上所示。

在 CNN 的最后一层，R-CNN 添加了一个支持向量机（SVM），它可以简单地界定物体是否为目标，以及是什么目标。这是上图中的第 4 步。

提升边界框

现在，在边界框里找到了目标，我们可以收紧边框以适应目标的真实尺寸吗？我们的确可以这样做，这也是 R-CNN 的最后一步。R-CNN 在区域提案上运行简单的线性回归，以生成更紧密的边界框坐标从而获得最终结果。下面是这一回归模型的输入和输出：

输入：对应于目标的图像子区域

输出：子区域中目标的新边界框坐标

所以，概括一下，R-CNN 只是以下几个简单的步骤

1. 为边界框生成一组提案。

2. 通过预训练的 AlexNet 运行边界框中的图像，最后通过 SVM 来查看框中图像的目标是什么。

3. 通过线性回归模型运行边框，一旦目标完成分类，输出边框的更紧密的坐标。

2015： Fast R-CNN - 加速和简化 R-CNN

【j2开奖】深度 | 用于图像分割的卷积神经网络：从R

Ross Girshick 编写了 R-CNN 和 Fast R-CNN，并持续推动着 Facebook Research 在计算机视觉方面的进展。

R-CNN 性能很棒，但是因为下述原因运行很慢：

1. 它需要 CNN（AlexNet）针对每个单图像的每个区域提案进行前向传递（每个图像大约 2000 次向前传递）。

2. 它必须分别训练三个不同的模型 - CNN 生成图像特征，预测类别的分类器和收紧边界框的回归模型。这使得传递（pipeline）难以训练。

2015 年，R-CNN 的第一作者 Ross Girshick 解决了这两个问题，并创造了第二个算法——Fast R-CNN。下面是其主要思想。

Fast R-CNN 见解 1：ROI（兴趣区域）池化

对于 CNN 的前向传递，Girshick 意识到，对于每个图像，很多提出的图像区域总是相互重叠，使得我们一遍又一遍地重复进行 CNN 计算（大约 2000 次！）。他的想法很简单：为什么不让每个图像只运行一次 CNN，然后找到一种在 2000 个提案中共享计算的方法？

【j2开奖】深度 | 用于图像分割的卷积神经网络：从R

在 ROIPool 中，创建了图像的完整前向传递，并从获得的前向传递中提取每个兴趣区域的转换特征。来源：CS231N 幻灯片，Fei Fei Li、Andrei Karpathy、和 Justin Johnson 斯坦福大学

这正是 Fast R-CNN 使用被称为 RoIPool（兴趣区域池化）的技术所完成的事情。其要点在于，RoIPool 分享了 CNN 在图像子区域的前向传递。在上图中，请注意如何通过从 CNN 的特征映射选择相应的区域来获取每个区域的 CNN 特征。然后，每个区域的特征简单地池化（通常使用最大池化（Max Pooling））。所以我们所需要的是原始图像的一次传递，而非大约 2000 次！

Fast R-CNN 见解 2：将所有模型并入一个网络

【j2开奖】深度 | 用于图像分割的卷积神经网络：从R

Fast R-CNN 将卷积神经网络（CNN），分类器和边界框回归器组合为一个简单的网络。

Fast R-CNN 的第二个见解是在单一模型中联合训练卷积神经网络、分类器和边界框回归器。之前我们有不同的模型来提取图像特征（CNN），分类（SVM）和紧缩边界框（回归器），而 Fast R-CNN 使用单一网络计算上述三个模型。

(责任编辑：本港台直播)