预计在 2020 年,互联网数据里大概 90.6% 的数据都是以视频的方式进行呈现。第二就是在物流空间,监控视频每年也以 20% 的速度在增长,在这种海量数据爆炸性增长下进行数据分析,为实现我们的需求带来了很大的挑战。 当前主要经历了三个阶段,从最初城市里任何视频监控都没有到平安城市,安装了一些普通模拟的摄像头,有了数字化的数据,到现在我们基于大量数据以及大量积累的算法,慢慢的可以把这些数据变成知识数据,进入到智慧计算的阶段。 从认知的角度来讲,人工智能可以说是摄像头的大脑。从人工智能发展的角度来讲,经历了从看得见到看得清的过程,我们首先通过安装各种各样的摄像头,现在每个县,每个村都安装了摄像头。另外就是看得清,原来我们在 80 年代的时候,最初来做这种图像识别的时候,当时机器只有 586、486 这种设置,非常复杂,数据非常少,原来的摄像头数据每个图像是 320、240 的分辨率。在这个分辨率下很难提出我们要识别的是内容,以及使用我们人眼的看法。现在随着计算能力的提高以及 GPU 的出现,整个视频发展到了一个大数据深度学习的时代,使大家通过一些专家系统,能够使我们从视频数据中得到更有价值,更加智能的一些分析。 从技术发展的角度来看,当前的发展经历了从规则式到大数据时代的,经过了目标检测、车牌识别、人脸识别、文本识别到视频检索,通过模拟其他的特征,都是通过人工设计的特征,符合边缘的某些特性或者是支持向量阶的方式,来得到一个基本的算法,能满足一些规则的应用。这里面最成功的是车牌识别以及一些文本的检测,手写的识别和人脸检测。 慢慢我们的数据量在不断增加,我们慢慢的支持向量级,整个在小数据的时代,基本上是知识向量统治机器学习的时代。而现在随着 GPU 的出现,数据的海量增加,现在达到了一个全数据驱动与深度架构、智能分析算法三者深度结合的时代,是一个大数据的深度学习。包括现在各种成千上万的分类识别,目前都是基于这种大数据的智能视频分析深度学习框架。 2. 研究项目节选 智能物件识别的检测 这个网络设计得非常复杂,包括卷积层、反卷积层、STN 的校正网络、空间变换校正网络、空间上下文描述的学习网络以及空间变换的随机扰动、随机定位,对不同尺度敏感的自动回归以及最后的 NMS 做的这种精细的目标分类和空间关系建模。它是一种由粗到细的一个精细的检测分类融合的框架。目前我们主要是针对生鲜领域,包括苹果、梨、蔬菜,以及各种牛奶,如光明的、蒙牛的。目前已经实现了 50 个大类,200 个子类精细的识别和检测。目前在食物产品中基本上达到 90%,主要目标遮盖小于三分之一,基本上就可以精确检测到。 图像语义分割 这是一个像素级的语义分割,包括人的场景,主要是做机器人的,就是服务型机器人,常见的床、桌子、椅子、茶杯、手机、水杯、电视、冰箱这种 3C 类的,还有服务类的,比如吃饭,家庭常见的这些目标,让机器人来辅助人完成它所寻找的这个目标的功能。最后是基于服装的解析,就是我们把人分成 22 个部分,包括他的头发长短、性别、年龄,有没有拎包,他拉没拉箱子,长裤短裤,长裙短裙。这是我们当前的一个效果,这是 22 类人的解析,我们可以把人大概在 10 到 20 个小米之内分割成 22 个区域,主要是面向公安的一些拍照购物搜索做一些应用。网络视频的录像当中是没有标签的,我们通过这些录像的区域之间的关系来判断这个视频的镜头和场景的分割,给它做一些视频镜头和场景之间的标签,以及做一些图像的区域和图像集,以及图像整体的一些水平,这个我们主要是用图模型。这是我们从 2004 年做到现在,做了十几年的一个工作,这个工作目前在很多场景下应用。这是基于图的视频图像标注,基本上是我们组一个标志性的工作。 哈希的大规模图像检索 (责任编辑:本港台直播) |