孙剑博士 2003 年毕业于西安交通大学,随后在 Microsoft Research Asia (MSRA)工作,曾担任 MSRA Principal Research Manager。2016 年 7 月,孙剑博士加入旷视科技(Face++),出任该公司首席科学家,负责Megvii Research。最近,孙剑本人撰文向大家阐述了自己从科技巨头到创业公司的心路旅程,并简要介绍了自己最近的研究。 2016 年,就我个人来讲,所做出的最重大抉择,就是在已经工作了十三年的微软研究院(以下简称 MSR),和一个成立不过几年的创业公司——Face++旷视科技(以下简称 Face++)之间,选择了后者,并且以首席科学家身份加入。当时我还住在西雅图,当真是「身未动,消息已远」,各种报道从国内外朋友圈向我强势袭来,让我体会到了媒体的力量。 时至今日,我已搬回北京,在 Face++ 上班近半年了,开奖,依然时常被问及:「过的怎么样?」,「Face++ 和 MSR 的研究部门一样吗?」,「Face++ 是如何开展研究工作的?……」等等。问题或大或小,但大多诸如此类。值此新年之际,我想把自己这半年来的观察与思考与大家分享一下,权且当作对各位关心的答谢。 接下来,我将围绕大家关注的一些典型问题,逐一说明: Face++ 与 MSR 的研发部门有什么异同? 就我的观察与体验,两家公司研发部门的本质是几乎没有差别的。什么叫一个公司的研发部门本质呢?我认为有三个要素极其关键:使命定位、人员组成和研发方式。坦白来讲,从这三点审视,我在两边看到了惊人的一致性,也就是说: 1)他们都同样有着既基于产品,又探索前沿技术的使命定位; 2)他们都同样聚集着一群追求极致,有 Geek 精神,且高自我驱动的精英; 3)他们都用同样的套路推进研究工作:确定问题-->实现、研究和理解既有方法-->进行持续改进或创新。 在这其中,最令人有现场触动感的还是「人」。举个最近让我感动的例子: 下面这张我在 2016 年最后一天发的朋友圈最好的诠释了 Face++ 的核心价值观「追求、极致、简单、可靠」中的前两点。 当然,即便两边研究部门的本质相同,也必然会存在着不同之处,毕竟每个公司都有其特定的文化与管理模式。当我身边的战友们从平均年龄三十多岁直降十岁的那一天突然来临时,我一方面感觉自己好像在瞬间迈入中老年的行列中(讲个梗:今天一名同事问我为什么把手机字体调的那么大),另一方面觉得自己充满了干劲,同时还有一份沉甸甸的责任感。 Face++ 的研究部门在研究什么? 在众多场合下问,这个问题是被提及次数最多的。为什么会有这样的疑问呢,我想不外乎两方面的思考,一是想知道公司具体研究哪些领域,长期课题与目标是什么,二是想了解一家创业公司里的研发部门,到底能不能推进真正意义上的研究工作,还是打着研究的旗号做着产品开发。 这里还隐含着一个认识上的误区,就是在我们公司被广泛称为 Face++ 之后,越来越多的人误以为 Face++ 嘛,只是在做人脸技术。人脸,目前确实是一个商业前景广阔,玩法花样不断翻新的应用。但是,Face++ 从创立第一天就聚焦在人工智能的三大应用领域之——计算机视觉,是以一系列视觉识别(人脸、人、物体、文字、场景、行为等)问题为中心,研发核心算法,打造能落地的产品。消除了这样一个误区,你会比较好理解,为什么 Face++ 要用「Power Human with AI」作为使命,用「人工智能技术造福大众」,来发愿。毕竟公司的全名是叫旷视(英文叫 Megvii, 取自 Mega Vision ),也就是大的视觉。 回到问题本身,目前我们主要在集中研究四个视觉理解核心问题(见下图):图像分类、物体检测、语义分割、和序列学习。研究的技术路线是彻彻底底的深度学习:1)使用深度神经网络;2)尽最大可能使用端到端(end-to-end)学习。Face++ 应该说是这波儿人工智能创业公司当中最早研究并应用深度学习的。 图像分类是最基础的问题 这个问题自身就有广泛的应用(例如人脸识别和场景分类),也是研究其他问题的根基。深度学习的出现使得我们从以往的特征设计走向了网络结构设计,这里包含很多对问题的深刻理解、实践中总结的经验和原理、优化算法的探索、和对下一步技术发展的判断。我们的研发部门里有一个专门的小组负责研究如何训练最好的基础神经网络,并沿着以下三个子问题深入: 1)针对不同计算复杂度下设计最优的神经网络; 2)针对不同计算平台的实际要求,来设计最高效的网络; 3)针对不同问题设计最合适的网络。 另外对神经网络模型的压缩和低比特化表示也是我们研究的重点之一。 物体识别是解决感知图像中哪里有什么物体的问题。 (责任编辑:本港台直播) |