wzatv:【j2开奖】AI Talk | 百度IDL院长林元庆：击败最强大脑王昱珩背后的技术是什么？_本港台直播_J2开奖直播

本周五《最强大脑》最后一场人机大战——视频捕捉影像的人脸识别完美谢幕。最后一场比赛中，小度战平人类顶级微观辨识高手王昱珩。至此小度以两胜一平的好成绩进入年后的脑王大战。我们专访了百度深度学习研究院院长林元庆，请其解读视频识别的关键技术点及整个小度团队的幕后工作。

　　作为机器之心新栏目 AI Talk 的一部分，我们对这次视频专访的内容进行了剪辑，完整采访可见下面文字整理版本。

机器之心：这次视频识别主要使用了哪些技术方法？识别过程的实现路径是怎样的？

林元庆：我们的系统首先对视频里出现的人脸进行检测和跟踪。直观的来讲检测和跟踪，就是系统去看视频里有几个人的人脸各自在哪里，是怎么移动的。系统在这个检测跟踪过程完成之后，在每个人的人脸图片里挑选几张质量比较好的去做下一步的人脸识别。通过随后的识别过程识别出这些照片中的人具体都是谁。

机器之心：对视频内容进行结构化分析时，如何用有效的特征对内容进行表达？

林元庆：其实我们这个系统主要由两部分组成，一部分是实现检测和跟踪，另外一部分就是人脸识别识别。我们都是通过深度学习的方法学习出有用的特征。目前在特征提取上，我们很少运用人为设计的特征去对内容进行表达，大部分的特征都是运用深度学习，从海量数据里，通过机器学习去学到这些有效的特征。

机器之心：与静态识别相比，动态人脸识别有哪些区别？主要挑战是什么？

林元庆：动态人脸识别比静态更为困难，动态的人脸识别里需要能检测出不同角度的人脸，而且动态的人脸整体质量偏低，有些帧的图片甚至会是模糊的，因为动态的情况下人是有移动的。那么在这些挑战下，我们需要有比较好的检测算法，在很多单帧的静态图片里检测出人脸图片质量比较好的图片，然后用这些质量比较好的图片去做下一步的人脸识别。主要的挑战也在这里，怎么更好的检测出人脸以及怎么判断出质量比较好的可以用于识别的人脸图片。另外，动态识别的视频每一秒有 30 帧，这里的又一个挑战是如何做到人脸实时检测。在静态人脸识别里，你需要做的只是处理一张图片；而动态的情况下你有很多图片，那么怎么快速计算，怎么选择出质量最好的图片甚至多帧的学习融合都是需要仔细考虑的。

机器之心：这一技术训练时对硬件、数据要求高吗？所使用的样本量规模和训练时间的情况是怎样的？

林元庆：我们现在开发出的这套人脸识别系统，在设计时特别考虑弱光条件下和有遮挡条件下人脸识别的实现。这次比赛里所用的人脸识别系统，是通过两个步骤来实现的。第一步是通用人脸识别模型的训练，我们花了很大力气来做。比赛系统里的模型，我们是用大概 200 万个人，总共 2 亿张的照片来训练的。2 亿张照片本身是一个非常大的数据，需要非常大的计算量和非常好的算法，能做到这一点借助了百度的 PaddlePaddle 平台，通过 PaddlePaddle，我们可以在多台机器上实现高效的并行计算。在这一步我们得到一个人脸识别基础能力非常好的通用模型。有了通用模型，下一步就是实现在不同的场景下的人脸识别。第一期的人机大战，比的是跨年龄的人脸识别，这一期比的场景是有暗光和遮挡的场景。我们在通用模型之上会特别去准备一些跟这个环境相近的数据集来进一步训练通用模型，最后得到弱光和遮挡环境下较好的人脸识别系统。后面的这个数据集相比之前的通用模型的数据集就小很多了，这样的数据本身也比较难收集，我们最后的数据集大概是 1 万人的量级。

机器之心：王昱珩在答题过程中其实改过答案但最终改错了，机器会出现类似的问题吗？

林元庆：机器可能不太会出现（这种情况），因为唯一输入给机器的就是图像或视频信息，机器通过算法将要考虑到的因素已经都考虑了，最后是得到一个置信度也就是 Confidence Score，分数比较高的会被机器认为就是正确答案。虽然分数也是综合了非常多因素，但机器没办法再回去想出另外一个分数来。就像我们第一期里双胞胎的情况，机器最后决定什么分数就是什么分数，没办法再改。人不一样，除了看图像还会联想到一些信息，最终进行综合考量，但这会带来好结果也会有不好的结果。

机器之心：听说因为和王昱珩比赛而加班加点升级了算法，具体是做了哪些升级呢？

(责任编辑：本港台直播)