新智元:去年 ImageNet 大规模图像识别挑战赛(ILSVRC)中,海康威视(HikVision)拿下场景分类项目的冠军。你能具体介绍一下这一比赛项目吗?海康威视夺冠的技术核心是什么? 浦世亮:ImageNet 场景分类任务采用MIT发布的 Place2 数据集,其目的是对图像中存在的场景进行识别。该数据集拥有365个类别的场景目标,800多万张已经标记的训练样本。相对于普通的ImageNet图像分类任务,场景分类任务的难点在于其数据分布非常不均衡,每个类别的数据从5000 到 30000不等,每张图像都可能在不同的场景描述和相对更模糊的场景标签。 场景分类技术,对于视频产业及其应用领域有比较重要的应用价值,基于对场景的理解有助于我们的系统更好地对于视频中的信息进行理解和应用。
海康威视从成立之初就专注于计算机视觉领域技术的研发,13年就开始深度学习的技术布局,实现了一整套的深度学习训练框架,并探索了深度神经网络的优化算法,包括对网络参数初始化、超参数搜索、正则项、损失函数、流形优化理论等的研究。
另外,我们还从信号调制方向切入,围绕信号在网络前向反向传输中的保范性(norm-preserving),探索深层网络优化的可行性与新方向。 浦世亮:深度学习+安防 10 问
2016年10月24日,海康威视在北京召开“AI+:感知未来、融合发展”主题论坛,新智元受邀出席。 1. 新智元:10月24日,在北京召开的“AI+: 感知未来、融合发展”主题论坛暨海康威视新品发布会。海康威视总裁胡扬忠介绍,深度学习技术可谓安防行业的“颠覆性力量”,具体如何理解呢? 浦世亮:在SDT安防大数据时代,面对井喷式增长的视频监控数据量,atv,只停留在浅层次分析识别的传统智能算法,已无法满足深层次数据价值挖掘的需求。显而易见,我们需要有更深层次的智能,应用人工智能可以帮助我们做到这一点,而这其中的关键点便是深度学习算法的应用: 准确率更高,应用深度学习算法的深度智能设备,可以自行提取更多更详细、更微小的特征,从而使得识别分类对象的准确率更高,也就是说:深度学习让智能有了质的飞跃; 环境适应性更强,同样是环境特征的提炼,深度学习算法可以自行提取更丰富、更适合的特征参数,从而达到更强的抗环境干扰能力。这就意味着,深度学习的产品可以应用到更广泛的环境当中; 识别种类更丰富,理论上只要有足够多的样本进行训练,深度学习能够实现比较精准的目标分类识别,自主特征识别的特点,又让深度学习特别适用于抽象、复杂的关于人的特征、行为的分析领域。 2. 新智元:视频分析是安防中一个非常重要的技术。那么深度学习是如何对视频进行分析的?其中的技术难点主要存在于什么地方? 浦世亮:深度学习技术主要是利用深度神经网络,对视频关键帧信息进行逐层特征抽象,在此基础上,提取目标的结构化信息,并利用各关键帧的信息,进行前后有效关联,从而形成对视频中目标行为或事件发生的综合判断。其技术难点主要体现在海量数据应用、高性能训练、推理平台,以及适合安防领域的高效模型设计上。 3. 新智元:安防数据99%都是非结构化的,那么你们是如何利用这些数据?有没有比较便捷的办法,把这些数据变成结构化的? 浦世亮:原始的安防数据几乎都是以非结构化的面目呈现,无法直接利用。针对这个业内普遍痛点,海康威视推出了基于深度学习技术的全系列智能安防产品家族,涵盖“深眸”系列智能摄像机、“神捕”系列智能交通产品、“超脑”系列智能NVR、“脸谱”系列人脸分析服务器等等。“‘深眸’系列专业智能摄像机依托强大的多引擎硬件平台,内嵌专为视频监控场景设计优化的深度学习算法,具备了精准的安防大数据归纳能力,实现了在各种复杂环境下人、车、物的多重特征信息提取和事件检测。将非结构化信息转为结构化信息,将打通大数据入口,从而为后续关键数据挖掘铺平了道路。 4. 新智元:目前实际应用中,视频人脸识别的准确率能做到多少? (责任编辑:本港台直播) |