智东西(公众号:zhidxcom) 导语:2016年6月底,曾在微软研究院(MSR)效力多年的孙剑博士加入AI领域初创Face++(旷视科技)担任首席科学家,因其CVPR,ICCV,ECCV,SIGGRAPH等顶级会议上的近百篇学术论文,计算机视觉相关领域的卓越就就,而在当时的AI圈引起了不小骚动。时隔半年,孙剑老师亲自撰文介绍并总结了加入Face++的近况,针对前后两份工作的研究内容异同、当下视觉研究方向和重点领域,以及序列学习、遮挡等技术问题进行了详尽地梳理和解答。 智东西授权转载,以下为全文内容。 文 | 孙剑 2016年,就我个人来讲,所做出的最重大抉择,就是在已经工作了十三年的微软研究院(以下简称MSR),和一个成立不过几年的创业公司——Face++旷视科技(以下简称Face++)之间,选择了后者,并且以首席科学家身份加入。 当时我还住在西雅图,当真是“身未动,消息已远”,各种报道从国内外朋友圈向我强势袭来,让我体会到了媒体的力量。时至今日,我已搬回北京,在Face++上班近半年了,依然时常被问及“过的怎么样?”、“Face++和MSR的研究部门一吗?”、“Face++是如何开展研究工作的?……”等等。 问题或大或小,但大多诸如此类。值此新年之际,我想把自己这半年来的观察与思考与大家分享一下,权且当作对各位关心的答谢。 接下来,我将围绕大家关注的一些典型问题,逐一说明: Face++与MSR的研发部门有什么异同? 就我的观察与体验,两家公司研发部门的本质是几乎没有差别的。什么叫一个公司的研发部门本质呢?我认为有三个要素极其关键:使命定位、人员组成和研发方式。坦白来讲,从这三点审视,我在两边看到了惊人的一致性,也就是说: 1)他们都同样有着既基于产品,又探索前沿技术的使命定位; 2)他们都同样聚集着一群追求极致,有Geek精神,且高自我驱动的精英; 3)他们都用同样的套路推进研究工作:确定问题–>实现、研究和理解既有方法–>进行持续改进或创新。 在这其中,最令人有现场触动感的还是“人”。举个最近让我感动的例子: 下面这张我在2016年最后一天发的朋友圈最好的诠释了Face++的核心价值观“追求、极致、简单、可靠”中的前两点。
当然,即便两边研究部门的本质相同,也必然会存在着不同之处,毕竟每个公司都有其特定的文化与管理模式。当我身边的战友们从平均年龄三十多岁直降十岁的那一天突然来临时,我一方面感觉自己好像在瞬间迈入中老年的行列中(讲个梗:今天一名同事问我为什么把手机字体调的那么大),另一方面觉得自己充满了干劲,同时还有一份沉甸甸的责任感。 Face++的研究部门在研究什么? 在众多场合下问,这个问题是被提及次数最多的。为什么会有这样的疑问呢,我想不外乎两方面的思考,一是想知道公司具体研究哪些领域,长期课题与目标是什么,二是想了解一家创业公司里的研发部门,到底能不能推进真正意义上的研究工作,还是打着研究的旗号做着产品开发。 这里还隐含着一个认识上的误区,就是在我们公司被广泛称为Face++之后,越来越多的人误以为Face++嘛,只是在做人脸技术。人脸,目前确实是一个商业前景广阔,玩法花样不断翻新的应用。但是,Face++从创立第一天就聚焦在人工智能的三大应用领域之——计算机视觉,是以一系列视觉识别(人脸、人、物体、文字、场景、行为等)问题为中心,研发核心算法,打造能落地的产品。 消除了这样一个误区,你会比较好理解,为什么Face++要用“Power Human with AI”作为使命,用“人工智能技术造福大众”,来发愿。毕竟公司的全名是叫旷视(英文叫megvii, 取自mega vision),也就是大的视觉。 回到问题本身,目前我们主要在集中研究四个视觉理解核心问题(见下图):图像分类、物体检测、语义分割、和序列学习。研究的技术路线是彻彻底底的深度学习:1)使用深度神经网络;2)尽最大可能使用端到端(end-to-end)学习。Face++应该说是这波儿人工智能创业公司当中最早研究并应用深度学习的。
图像分类是最基础的问题。 (责任编辑:本港台直播) |