相对于图像分析,视频分析更有挑战性。一方面,图像分析技术是视频分析的基础。图像分析做不好,视频分析免谈。另一方面,视频分析有其独特的挑战。物理世界是三维的,且在不断变化,所以视频分析的任务更多样更复杂。其它挑战包括数据量大、存储计算资源要求高、实时性等。还有其它一些实际问题,比如说人工标注难、某些任务正样本少、隐私担忧导致数据集缺乏等,成为进一步发展的瓶颈。
前面谈到视频分析的一些应用场景,尽管不同应用场景有不同技术要求,但有些基本技术是共享的,比如物体的检测与跟踪。人是我们日常生活和工作的核心, 因此也是大多数图像/视频的最主要实体。对人的分析是视频理解中的关键一步。因此很多研究团队包括微软亚洲研究院最近几年都专注于以人为中心的视频分析,例如检测与识别人、人的属性、人的行为,甚至是人的意向。由于近年来大数据、 计算能力和深度学习技术的进步,对视觉数据中人的理解技术已取得了很大的进步。 机器检测和识别人脸的性能已经达到了和人相仿的程度,并在身份验证、 安全、 智能零售、智能媒体管理等领域得到广泛应用。 人体检测的性能也有了显著提高,在一些基准数据集上达到超过80%的准确度。人的各种属性,如性别、年龄、情感、手势与身体姿势,以及衣服颜色类别等,也可以很好地提取,以帮助更好地了解一个人的状态。2015年网上爆红的微软 how-old.net 应用程序就是依赖于性能优秀的人脸检测、年龄和性别估计等技术。人体姿态估计技术的性能也达到了数年前都不可想象的水平,也极大地方便了人的动作识别。我的同事兰翠玲将在另一篇文章专门介绍微软亚洲研究院在人体动作识别方面基于深度学习的近期研究工作。再结合周围的物体和场景的识别,就有可能推断出人的注意焦点和意图。 再比如,在和交通有关的场景里,车辆就变成了最主要的实体。围绕着车辆的一系列相关技术,比如汽车检测/跟踪、车牌检测/识别、路标行人检测等,就变得尤其重要。微软亚洲研究院在这方面也有一些初步研究进展。以后有机会再细谈。 同样的技术在不同应用场景下性能要求也不一样。拿人脸检测来说,对一般正规拍照或基于人脸的登录验证,技术已经很成熟。但对于无控制的视频监控等场景,由于摄像头角度、人脸大小、角度、遮挡、图像质量等变数很大,要做到技术成熟有很大挑战。比如对于保护隐私的视频人脸模糊的应用场景,对检测率要求极高,脸在任何一帧都不能曝光。这就要求人脸检测及跟踪技术要对特定场景数据进行很好的优化。近期我的同事谢文轩将会对视频人脸模糊技术做一个更详细的介绍。 总之,随着计算能力,大数据持续快速增长,加上主动学习、迁移学习、强化学习等更强大机器学习技术继续发展, 让机器可以像人一样看到并理解世界的前景是乐观的。
市场竞争刺激技术发展 再好的研究成果,最终只有在实际应用中得到验证才能体现它的真正价值。微软亚洲研究院研发的视频分析技术正在通过这个平台,以视频 API 的形式提供给广大人工智能领域的开发者,帮助他们方便而高效地开发和视频相关的人工智能应用系统。这些技术也成了微软Azure 云平台的媒体分析服务 (点击原文链接访问 ) 的重要组成部分,提供企业级的智能服务。类似地,其它高科技公司如Google、Amazon、Facebook等也相继推出计算机视觉API, 使市场争夺白热化。这种激烈竞争反过来将会进一步刺激加快计算机视觉和视频分析技术的发展,最终使人工智能可以透过视频看世界,尽快渗透到日常生活和工作中去。
引用: [1] “Home Security Solutions Market - Global Forecast to 2020"
[2] “Retail Analytics Market - Global Forecast and Analysis to 2020”
[3]"Smart Camera for Security Market & Surveillance - Global Forecast to 2020"
[4] “Semi Autonomous Market for Passenger Car – Global Trends & Forecast to 2018”
作者简介 (责任编辑:本港台直播) |