3. 公共安全与监控。公共安全与监控。 公共安全与监控市场预计将从2015 年的19.3 亿美元增长到2020 年的30.6 亿美元,复合年增长率为9.7%[3]。对火车站、公共广场和公园等公共场所日益关注的安全及监控是全球范围内推动智能摄像头需求量增长的重要因素之一。相关的技术要求包括人的检测、跟踪与识别、人的属性和动作行为检测、车的检测与跟踪、物体标注、运动检测等。一般要求实时处理。 4. 自动驾驶汽车。半自动车市场预计到 2018 年将达到214 亿美元。包括摄像头在内的多种传感器是必备部件。相关的视觉技术要求包括汽车检测/跟踪、路标行人检测、 自由空间探测、 3维绘图等[4]。 5. 视频数据搜索。海量的视频数据需要有效的索引和管理. 这要求把没有结构的原始视频数据转成有结构的数据。相关的技术要求包括:人的检测、跟踪与识别,人的属性检测,物体和事件的检测与标注,字幕化, 光学字符识别等。 视频技术道阻且长 由此可见,视频分析与我们的日常生活息息相关,有着巨大的商业市场。这个巨大的商业市场也不断推动视频分析技术的发展。但是,尽管市场潜能很大,视频分析技术的发展在前期还是比较缓慢的。其原因是多方面的。一个主要原因是物理世界万象丛生、千变万化,视频数据的内容自然就丰富多彩,要将其模型化有很大难度。从一维到四维,每增加一维,复杂度都是指数增长。所以早期工作主要关注低层次图像特征和运动信息的提取以及在此基础上的应用,高层次语义上的理解进展较慢。语义上的理解需要借助规模较大的模型,而建模需要大量的有标注的数据,以及强大的计算资源,这些资源在早期是缺乏的。这是第二个主要原因。 这种状况终于在几年前开始得以改善:2010年左右, ImageNet 创建,提供了一个真正大规模有标注的图像数据集,在千万图像量级,有上千图像类别。这使图像分析技术开始有明显提高。2012年,深度神经网络被成功用于ImageNet图像分类年度竞赛,将其性能大幅度提升,展示了深度神经网络对视觉研究的极大潜能,也激起了视觉研究的新高潮,让人们看到了计算机视觉实用化的希望。短短几年后的今天,深度神经网络技术发展迅速,在ImageNet图像分类上的性能已超过人类,人们研究的重点也从图像分类转移到图像物体语义分割等更细更复杂的任务。 相对于图像分析,视频分析更有挑战性。一方面,图像分析技术是视频分析的基础。图像分析做不好,开奖,视频分析免谈。另一方面,视频分析有其独特的挑战。物理世界是三维的,且在不断变化,所以视频分析的任务更多样更复杂。其它挑战包括数据量大、存储计算资源要求高、实时性等。还有其它一些实际问题,比如说人工标注难、某些任务正样本少、隐私担忧导致数据集缺乏等,成为进一步发展的瓶颈。
前面谈到视频分析的一些应用场景,尽管不同应用场景有不同技术要求,但有些基本技术是共享的,比如物体的检测与跟踪。人是我们日常生活和工作的核心, 因此也是大多数图像/视频的最主要实体。对人的分析是视频理解中的关键一步。因此很多研究团队包括微软亚洲研究院最近几年都专注于以人为中心的视频分析,例如检测与识别人、人的属性、人的行为,直播,甚至是人的意向。 近年来大数据、 计算能力和深度学习技术的进步,对视觉数据中人的理解技术已取得了很大的进步。 机器检测和识别人脸的性能已经达到了和人相仿的程度,并在身份验证、 安全、 智能零售、智能媒体管理等领域得到广泛应用。 人体检测的性能也有了显著提高,在一些基准数据集上达到超过80%的准确度。人的各种属性,如性别、年龄、情感、手势与身体姿势,以及衣服颜色类别等,也可以很好地提取,以帮助更好地了解一个人的状态。2015年网上爆红的微软 how-old.net 应用程序就是依赖于性能优秀的人脸检测、年龄和性别估计等技术。人体姿态估计技术的性能也达到了数年前都不可想象的水平,也极大地方便了人的动作识别。我的同事兰翠玲将在另一篇文章专门介绍微软亚洲研究院在人体动作识别方面基于深度学习的近期研究工作。再结合周围的物体和场景的识别,就有可能推断出人的注意焦点和意图。 (责任编辑:本港台直播) |