“其实,Mavic最核心的地方在于计算机视觉”,Mavic Pro发布后大疆的一名视觉工程师如此向雷锋网强调着,彼时大家对于这款在很多方面都超越Phantom 4的无人机更多的讨论还是围绕在便携和巧妙的工业设计上,而作为其中的参与者,Mavic Pro新增的智能功能才是让他最为兴奋的。按照公开资料来看,这些新增的智能功能让Mavic Pro算得上是全球首款基于深度学习的消费级无人机。 首先我们将Mavic Pro与Phantom 4对比一下,Mavic Pro新增了哪些智能功能:1. 手势自拍;2. 物体识别;3. 视觉跟随中的平行跟随、焦点跟随、 自动环绕;4.精准降落。 这里面每一个功能的背后,都是在试图解决计算机视觉和机器人学领域里最核心也是最头疼的难题,同时也是大疆隐藏最深的秘密。 手势自拍 如今很多小型无人机都自称自拍无人机,不过其实都是属于跟拍,通过跟踪人或人脸来实现拍摄,大疆在今年3月的Phantom 4已经实现过,如今包括正火的Hover Camera等无人机也都实现了这一功能。而Mavic Pro则是实实在在地实现了脱离遥控器的自拍,也就是通过手势来进行抓拍。 当你走到画面里,Mavic Pro会自己识别移动的人,并且你可以向它挥手让它来跟着你飞行,在跟踪过程中只要做出拍照手势,它就会帮你抓拍。如此一来,你就能在拍照过程中完全将遥控器放收在包里。并且即使跟踪丢失时,也可以在不需要遥控器的帮助时,重新走回画面中,让飞机继续跟随。值得一提的是,当开启GPS辅助时,飞机会融合GPS的信息来进行矫正。 对于一般的手势识别系统而言,整体的步骤大概分为三步,也就是手部的定位、建模和识别。手部建模现在主要有两种方法,2D和3D,主要是看使用了什么样的摄像头,建模好后最后再进行识别,比如你的手是张开的还是握拳的。据悉从这个3D手部模型到手势识别是有不同的方法的,有的是直接拿3D手部模型去识别,有的是把3D模型转化成2D图像,再在这个基础上利用深度学习进行分类识别。目前在室内环境中,由于距离较近,手势识别的难度并不大,像微软的Kinect就在电视游戏上得到很好的应用。但在户外的场景下,在无人机上用这种摄像头远距离识别手势,大疆应该算是首个尝试的。 Mavic Pro并没有使用3D摄像头,而是通过2D主相机来进行识别的,其难度要比使用3D摄像头大很多。首先,飞机要在没有深度信息的前提下准确地识别和定位画面中的人,其次,要完成一系列手部的定位、建模和动作的识别。 Mavic Pro据称使用的是深度学习,而深度学习对于计算设备有较高要求,一般研究者需要NVIDIA Titan X这类GPU才能实现。Titan X旧版的处理性能大概在6T的Flops(每秒计算的浮点数),而大疆使用的是联芯LC 1860,官方给出的总处理能力在8GFlops,相差大概700倍,在这么低的处理平台上做深度学习,就面临着神经网络设计上的突破,训练的技巧,j2直播,模型的精简与压缩,底层实现的优化等问题。 关于Mavic Pro的手势自拍,雷锋网在体验过程中的感受是,反应还比较及时,大多数情况都能做到准确识别,功能方面比较好。体验方面,闪烁灯提示在阳光下比较弱,闪烁3秒后开始拍照,如果倒计时开始时加个声音提示可能会更好。 物体的检测和识别 物体的识别,是指对于画面中的主体进行分类判定。其分类方式既可以是粗粒度的类别(比如汽车),也可以细粒度的类别(比如奔驰C200、宝马X5)。物体的检测,是指在画面中自动找出感兴趣物体,并标出它们的轮廓。全世界著名的ImageNet竞赛,比拼的就是物体识别和检测的准确性。 Phantom 4的智能跟随功能的一个痛点是需要用户手动在屏幕上框出要跟随的目标,atv,而由于小白用户常常难以做到,尤其当目标在运动中。一方面会因为框的不准确,而造成智能跟随表现不理想,另一方面对于正在运动中的物体,很难框中。而物体检测和识别技术,可以让用户实现即点即走,让智能跟随的体验有了质的提升。这次Mavic Pro可以自动检测识别多种常见物体(人、汽车、卡车、动物、船、人骑自行车或摩托车等),并号称其跟随的动作会根据不同的物体有相应的优化。 Mavic Pro对人的跟随,图片来自网络体验视频 Mavic Pro对船的跟随,图片来自网络体验视频 智能跟随的模式升级 (责任编辑:本港台直播) |