本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:斯坦福提出高速视频目标检测系统NoScope:速度超

时间:2017-07-09 13:19来源:118图库 作者:j2开奖直播 点击:
学界 | 斯坦福提出高速视频目标检测系统NoScope:速度超现有CNN上千倍 2017-07-08 13:14 来源:机器之心 原标题:学界 | 斯坦福提出高速视频目标检测系统NoScope:速度超现有CNN上千倍 选自

学界 | 斯坦福提出视频目标检测系统NoScope:度超现有CNN上千倍

2017-07-08 13:14来源:机器之心

原标题:学界 | 斯坦福提出高速视频目标检测系统NoScope:速度超现有CNN上千倍

选自Stanford University

作者:Daniel Kang 等

机器之心编译

参与:熊猫

卷积神经网络在目标检测任务上已经取得了优良的表现,但它们的计算成本比较高、速度比较慢,不适用于大规模的实时视频处理。为了解决这个问题,斯坦福大学的几位研究者提出了一个名叫 NoScope 的系统,将目标检测的速度提升了数千倍。该研究的相关论文和代也已发布,本文是这些研究者对该项目的介绍文章,机器之心对其进行了编译介绍。

论文地址:https://arxiv.org/abs/1703.02529

项目地址:https://github.com/stanford-futuredata/noscope

这个时代,视频数据正在爆发式增长。光是在英国就有多达 400 万个 CCTV(闭路电视监控系统),而每分钟被用户上传到 YouTube 的视频就长达 300 小时。近来深度学习的发展让我们可以自动分析这些越来越大量的视频数据——让我们可以查询感兴趣的目标、检测罕见和异常事件、筛选这些几辈子也看不完的也没人想看的视频。但是,这些深度学习方法的计算成本都很高:当前最佳的目标检测方法在当前最先进的英伟达 P100 GPU 上的处理速度是 10-80 帧每秒。如果只有一个视频的话,这还好说,但这却无法实现大规模的部署应用。举个例子,如果要实时分析英国所有的 CCTV,光是硬件就要花 50 亿美元。

为了弥合我们获取视频的能力和分析这些视频的成本之间的鸿沟,我们开发了一个名叫 NoScope 的系统。该系统处理视频流的速度可以比当前方法快上数千倍。我们的关键见解是:视频是高度冗余的,包含了大量时间局部性(temporal locality,即在不同的时间是相似的)和空间局部性(spatial locality,即在不同场景中看起来是相似的)。为了利用这种局部性,我们针对高效处理视频流的任务而从零开始设计了 NoScope。NoScope 采用了一系列利用了视频局部性的特定于视频的优化方法,从而能极大地减少每一帧的计算量,同时还能保持普通查询方法的高准确度。

在这篇文章中,我们将了解 NoScope 的每种优化方法的案例,并描述 NoScope 是如何将它们端到端地堆叠到一个模型级联(model cascade)中以获得多倍加速的——在真实世界的网络摄像头视频流上可以实现多达 1000 倍的加速!

来自台北的原型案例

假设我们想查询以下的网络摄像头视频流,以确定台北的公交车在何时通过一个给定的路口(比如,可用于交通分析):

报码:斯坦福提出高速视频目标检测系统NoScope:速度超

报码:斯坦福提出高速视频目标检测系统NoScope:速度超

台北路口的两段视频

对于这样的查询,当前最顶级的视觉模型会怎样回答?

我们可以运行一个目标检测卷积神经网络(CNN),比如 YOLOv2 或 Faster R-CNN。通过在视频的每一帧上运行该 CNN 来检测公交车:

报码:斯坦福提出高速视频目标检测系统NoScope:速度超

报码:斯坦福提出高速视频目标检测系统NoScope:速度超

使用 YOLOv2 标记后的台北路口的两段视频

这种方法的效果非常好——尤其是当我们使视频中出现的标签平滑过渡时,所以问题出在哪里呢?这些模型的成本高昂。这些模型每秒可以处理 10-80 帧视频,开奖,如果监控的是单个视频流,这还行;但如果要监控数千个视频流,这可就不够用了。

机会:视频中的局部性

为了做到更好,我们可以了解一下视频流本身的性质。具体来说,视频内容是高度冗余的。让我们回到台北的那个路口的视频流,看看一些公交车:

报码:斯坦福提出高速视频目标检测系统NoScope:速度超

从这个视频流上,这些公交车看起来都差不多;我们把这种局部性称为特定于场景的局部性(scene-specific locality),因为在这个视频流中,我们关注的目标之间彼此差别并不大(比如相对于另一个不同角度的摄像头)。

此外,在这个台北路口,可以很容易看出在每帧基础上的变化并不大,即便公交车在移动:

报码:斯坦福提出高速视频目标检测系统NoScope:速度超

我们称之为时间局部性(temporal locality),因为临近的帧看起来是类似的,含有类似的内容。

NoScope:利用局部性

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容