凭借腾讯作为互联网巨头强大的平台优势,即在数据、计算资源、人才上的积累,优图得以快速进步并且登顶多项AI 竞赛世界冠军。
聊一聊细节,本年度MegaFace 比的是100万级的大规模1:N人脸识别任务。这一比赛项目难度在哪? 腾讯优图团队向新智元解释说,提到难度总需要一个参照物,AI算法最好的参照物就是人。以前人脸识别算法的标杆是LFW。LFW测试的是1:1人脸验证的能力,人在这方面的能力在99.2%。目前机器学习算法最好的结果是他们刚提交的99.8%。而在MegaFace这种100万级的大规模1:N人脸识别任务中,人类的平均准确率在23.9%。而机器学习算法最好结果是他们刚提交的83.29%。这个准确率还是不考虑时间成本的。 “如果说像 LFW 那种1:1人脸验证场景机器可以替代人类进行工作,那么 MegaFace 这种1:N人脸识别场景机器就是完成了人类不可能完成的任务”,腾讯优图团队对新智元表示。 在图像识别,或者说人脸识别上,大家了解得比较多的是 ImageNet, 那么 ImageNet 和MegaFace 有何区别?腾讯优图说,二者最大差别就是一个是通用物体识别的评测,一个是特定人脸识别的评测。MegaFace 和 ImageNet是两个不同领域的比赛。 相比通用物体识别,人脸识别技术在20年前就已经有非常多的业务落地应用,优图团队介绍,他们人脸识别落地项目非常多,所以关注LFW、MegaFace比赛也是必然的。他们认为,学术界和工业界还是需要有一些分工的。 他们也谈到,许多最新的技术很多都是从 ImageNet 这类竞赛里面产生的,这一竞赛对整个业界的推动作用不容忽视的,因此腾讯优图也会对ImageNet也会持续保持关注。 技术细节:多机多卡的TensorFlow集群训练平台 具体到技术细节。优图团队介绍,他们使用的是多机多卡的TensorFlow集群训练平台,这是优图工程团队独立研发的机器学习集群,基于TensorFlow底层接口,并在上层构建了集群调度、存储和管理的框架,支持大多数网络模型以及优图特殊的网络模型,通过将分布式计算引入深度学习,不仅大幅缩短了深度模型训练的时间,同时提供了训练超深神经网络的能力,把深度学习能力提高到单机无法达到的高度。 这一平台也是通用性的深度学习工具,不仅面向人脸模型训练,同时可以支持图像、音频上的其他研究需求。 本次比赛,优图的另一个技术亮点则是集成了三个360、540、720层的类似Inception-resnet的深层网络。被问到为什么会想到这样一种设计思路? 优图解释说,对单个网络来说深度越深网络性能越好,但训练和识别时间也相对更长。不同深度的网络集成的时候互补性更好。所以他们采用了大网络和小网络融合的方式。融合都是会提升效果的,融合准确率比单个模型高。这种方法的优势就是可以用更短的时间训练出融合性能更好的一组模型。 另外,腾讯自研的人脸识别引擎Uface是优图团队目前公开的技术成果之一。据介绍,模型结构参考了Inception-resnet,但是具体结构都是根据任务需求自研的,比如优图人脸识别的祖母模型族。关于基于Boosting人脸形状回归模型,他们也基于学术界的论文,进行了很多创新,比如模型的量化压缩,从100MB到2MB,采用从整脸到器官的层级模型,实现了精度的显著提升,并用rank-learning算法对多次回归结果进行融合,避免出现大的偏差,而且进一步提升了精度。 谈到数据,优图官网上介绍说“立足腾讯社交数据大平台,收集标注了千万数据,拥有海量数据分析与人脸、图片训练集”。那么多数据,他们是如何标注的?优图团队介绍,在优图的所有标注任务他们都会通过聚类,视频跟踪、非监督学习等技术手段来最大程度的减少人工标注量,大部分的数据,识别模型都是可以很好的进行处理。 (责任编辑:本港台直播) |