另一个很重要的应用是人脸识别可以用在门禁系统中,百度大厦现在就使用了人脸闸机。是去年在互联网大会时,我们在乌镇落地了一个人脸识别的闸机,之前景区使用的是指纹认证系统,在乌镇参观游玩的游客会需要多次进入,需要身份认证。如果每一次要进出的时间过长,非常影响用户的体验,甚至要排很长的队。在这样的场景下,人脸识别系统跟指纹系统相比,有相当大的优势,乌镇现在用这种 1:N 的认证,游客走到附近就被识别出来,马上可以通畅进出。为什么这些原来没有,其实也是因为最近百度在人脸识别上有非常好的技术突破,今年我们真正实现了高精度 1:N 的人脸识别,我们现在外面公布的是能做到 99% 以上的精度,这应该在国内是首创。 机器之心:首期节目之后,我们还有哪些收获? 林元庆:我们希望百度的人脸识别以后能有更多的人来用起来。之前更多的是应用在互联网上,比如打开百度的图片搜索,搜「刘德华」会出来很多刘德华的照片,里面就使用了人脸识别,因为照片库里既会有刘德华也会有梁朝伟,系统需要通过人脸识别知道哪一张照片是刘德华哪一张是梁朝伟。这背后其实是我们做了全网的明星人脸的索引,这是之前我们人脸识别一个非常重要的用处,但后面我们希望能让人脸识别用在更广的地方,给大家的生活带来更多便利。 机器之心:细粒度视觉分类(FGVC/Fine-Grained Visual Categorization)是今年 CVPR 的热门研究方向,可否分享一下 IDL 在人脸细粒度识别的研究方面有何进展? 林元庆:细粒度图像识别其实跟通常我们说的图像识别有不太一样的地方,比如我们普通的识别可能只需要知道这是一只狗、一只猫、一个桌子,但细粒度图像识别,就要明确这一只猫是哪一个品种、这个桌子是哪个厂家哪个型号的。 举个例子,百度有一个非常疯狂的项目是菜品识别,我们希望能实现这样的场景:你在餐馆里拍一张菜品照片就能识别它是哪一个餐馆的哪一道菜,你能想象其中的难度会非常大。这里面用到的很多技术跟普通的图片识别也有很大区别。更多方面的信息需要通过算法去估计。比如,对于鸟类识别,可能得粗略的知道这是鸟的头部,这是鸟的尾巴,鸟头部是长这个样子,等等。从学术上来讲,我们称之为注意力模型。现在百度在这方面做了很多研发工作。 我们最近在 CVPR 提交了一篇文章,我们充分利用位置信息自动地去学习物体位置信息和位置上的特征信息,最后得到非常高的识别精度。在几个公开的测试集上,我们的表现应该都是业界最好的。同时,我们也把这项技术用到百度的产品里。在去年的乌镇互联网大会上,我们结合百度糯米在景区里的 18 家餐馆应用了菜品识别的功能,实现了我之前描述的场景。乌镇只是一个起点,我们现在其实早期能覆盖大概 4000 家国内餐馆,然后希望能一步一步地覆盖到国内上大部分的餐馆。 机器之心:菜品识别这个应用,实现大规模推广所面临的挑战是什么? 林元庆:从难度上讲,基本上有两个方面。一个是数据,我们需要收集足够多的数据来训练模型,这就需要跟百度糯米等产品端配合才能去各个餐馆里收集数据,而全国餐馆数量是百万级别的,我们要训练的模型的类别会是几千万或上亿类别。二是技术方面。这里,我们的技术跟普通普通识别的差别在于我们要能够处理千万个类别,还要处理非常小的类间区别和非常大的类内区别。比如,麻婆豆腐长得都很像,不同餐馆的麻婆豆腐只有非常细微差别,然而从不同角度,用不同光线拍的即使同一个餐馆的麻婆豆腐也会很不一样。因此,对于识别来说,这就是很难的问题。通常大家也会把人脸识别当成一个非常特殊的细粒度图像识别的例子,我们不单单要识别照片里有人脸,还要识别出是哪个人的人脸。 机器之心:要实现李彦宏所说的「让百度大脑像人类大脑」这个目标,接下来人工智能是不是也应该从人脑和神经科学中获得更多线索和灵感? 林元庆:在最强大脑比赛现场,对于一个识别对象,我们的系统只看到的一张或者是几张这个人的照片,然后去做比对。从一定程度上来说,atv,我们用的是迁移学习(transfer learning),这在一定程度上跟人很类似。平常看了很多的人,人慢慢学会了辩脸的能力,机器也一样,在这个能力上有很强的通用性。从更长远来看,在推理方面,人比机器要强很多,机器还需要从人脑机理等各个方面再去学习,设计出更好的算法,希望机器能够跟人一样思考推理。 机器之心:通过《最强大脑》这类面向大众的节目,百度希望传递关于人工智能的哪些理念? (责任编辑:本港台直播) |