深度学习算法的突破性进展,硬件计算能力的提升,以及移动互联网带来的海量数据,成就了这次人工智能浪潮。2013 年,Facebook 平均每天上传 3 亿 5000 万张照片。现在研究人工智能的公司,必须要有先进的算法,强大的 GPU 训练集群,以及源源不断的海量标注数据。 深度学习的爆发,给计算机带来了全新的认知能力,特别是在计算机视觉感知方面,在一些领域计算机的检测和识别能力已经超过人类。本期阅面科技资深研究员宋向明将以「嵌入式视觉与前端设备智能化」为主题给大家分享更多干货内容。 人工智能成为移动互联网后又一个创业浪潮,从互联网演进到移动互联网,用户数和数据量都产生爆炸性增长。人工智能也会经历一个类似的过程,从云端智能迈向移动设备端的智能,今后的大部分算法将会运行在设备端,完全基于本地的计算能力或者部分基于本地的计算能力来完成任务。 嵌入式视觉是计算机视觉的一个方向,随着深度学习的兴起,在算法层面的准确度也相应提高,与之前相比,嵌入式视觉的视频分析就是把云端或本地服务器的处理能力放到嵌入式系统上,使得它能够非常低功耗和实时的进行本地处理。 嵌入式视觉的广阔应用场景 计算机视觉的视频分析主要应用在人机交互,环境感知,智慧商业分析,自动驾驶以及安防监控等应用场景,一般要求实时处理,有些功能可以离线分析。 人机交互:顾名思义就是机器和人的交互。它可以准确的判断访客的属性信息,以及年龄性别的分析。同时基于一些手势的控制,人机的互动性也将会上一个层次,但是这通常需要实时信息的反馈。 环境感知:举个例子,当机器人到一个陌生的环境时,通过环境感知技术,能快速准确地知道现在所处的环境位置,为导航或者其他功能的决策做个判断。 智慧商业分析:商业场所的视频分析有两个方面,一方面是当顾客到达一个商业场所,对她的属性进行识别,比如年龄、喜好等,另一方面是商场的人流数据统计,这对于营销决策起着不可或缺的作用。 自动驾驶:目前自动驾驶市场非常广大,包括摄像头在内的多种传感器是必备部件。相关的视觉技术要求包括汽车检测/跟踪、路标行人检测等。 安防监控: 公共场所日益关注的安全及监控是全球范围内推动智能摄像头需求量增长的重要因素之一。通过人脸检测、跟踪与识别、人的属性和动作行为检测、车的检测与跟踪、物体标注等技术,可以非常实时的找出安防缺陷与问题。
嵌入式视觉的广阔应用场景 前端设备智能化的必要性 目前来看,我们身边许多智能设备,如摄像头、机器人等,它们都需要强大的本地实时交互、计算的能力,这也意味着前端设备上需要有智能化的能力。 随着智慧城市,智慧商业,智能家庭的发展,越来越多的摄像头产品上线,传统的视频监控存储,人工查看的方式,已经完全无法满足现在对视频分析的需求。如果使用大量服务器进行实时视频分析,那么视频的传输,存储,分析的成本非常高,只能在某些特定领域使用,限制了应用场景和规模。 人机交互,环境感知方面,需要实时的理解和响应,即使网络条件差,或者没有网络,也需要能够正常工作。为了解决这些问题,直播,深度学习必须在前端有限的计算资源和功耗下运行。 然而深度学习算法,计算量非常大,通常需要运行在高性能的服务器上,对于在前端运行提出了非常高的要求。这些正是嵌入式视觉的机遇与挑战。Nvidia 预计,到 2020 年,全球预计将会有 10 亿台监控摄像头投入使用。将传统的前端带摄像头的设备,升级为具有一定智能的设备,继而在前端本地就能实时的完成特定的任务,比如检测到感兴趣的目标,并进行下一步的追踪或者识别,对环境实时建模,自动导航,极具应用和商业价值,开创一个新的时代。 深度学习针对嵌入式的优化方式 前端设备智能化,前景广阔。硬件+算法一体化的解决方案,以最优的性价比提供给客户,才是嵌入式视觉解决方案的核心竞争力。嵌入式视觉中需要做非常多的优化工作。深度学习针对嵌入式方面的优化,主要有网络结构优化,模型压缩,定点化,二值化,结合 SIMD,缓存,多线程,异构计算的优化。 算法软件优化 1. 网络结构优化 基于一个初始版本,对网络结构进行调整,某些层的修改,参数的调整,使得它能够在不降低精度的情况下速度更快。 2. 模型压缩剪枝 把一些不必要的分支给砍掉,在进行一个预测的时候,计算量相对会减少一些,速度变快。 3. 定点化,二值化 (责任编辑:本港台直播) |