2015 年 12 月 10 日,在 ImageNet 计算机识别挑战赛中,由首席研究员孙剑带领的微软亚洲研究院视觉计算组,通过 152 层神经网络的应用,以绝对优势获得图像分类、物体定位以及物体检测全部三个主要项目的冠军。 半年前,孙剑博士离开微软研究院入 Face++ 旷视科技(以下简称 Face++)任首席科学家兼 Research 负责人,引发业内热议。孙剑博士于半月前撰写了《创业公司里的研究之美》,详细描述了 Face++ 的研究方向、展开研究的方式。在他看来,无论是使命定位、人员组成和研发方式,Face++ 的 Research 和 MSR 的研究没有本质差别,都是一群富有 Geek 精神的自我驱动者在探索前沿技术。 但仍有不少问题困扰我们。已经在图像领域耕耘十余年的他,为什么会选择创业公司?从大公司到创业公司,又有哪些变化?图像识别领域的下一个「大」问题是什么?152 层的神经网络的创想,究竟是怎样出现的? 为此,机器之心专访孙剑博士,从残差网络、ImageNet 测试、数据标注等多个角度展开了话题。内容整理如下,以飨读者。 关于 152 层神经网络和残差学习 机器之心:在 2015 年在 ImageNet 测试中,您带领团队使用了 152 层神经网络,取得了三个主要项目的冠军。您和您的团队是如何想到这个方法,又是怎样去实现的? 孙剑:很多时候做研究,是在无数次的尝试中最后总结出的方法,同时把一个复杂的方法进行简化。做这个(残差网络),我们试了非常多的方法,有一些方法我们都没有公布。中间经历过很多,做了实验之后最后总结出(残差网络),发现它非常有效。 找到这个有效的方式后,我们分析它的原理,为什么能起作用。最后在论文中以残差学习的形式呈现,这是我们当时认为最好的一种解释。后来很多人尝试新的解释和改进,也有 A 解释、B 解释、C 解释,有些我们是认同的,有些我们不认同,其实蛮有意思的。 残差网络并不是说做到多少层,而是你也可以简单的做到这么多层,它核心使深层网络的优化变得容易。残差网络相当于将问题重新描述,但本质没变,以至于用现有的优化算法就很好解。以前不收敛,现在就能收敛了;以前收敛到很差的结果,直播,现在就非常容易收敛到很好结果,所以它本质上是解决了优化问题。 相关结果截图,来自 ImageNet 2015 测试(ILSVRC2015)网站 这个问题困扰了神经网络工作者非常长时间。为什么叫深度学习?深度就是网络层数,层数越多就越深,刚开始做 5 层就算深度。2012 年 Geoffrey Hinton 做了 8 层,他的论文专门写了一段证明 8 层比 5 层好,越深越好,因为还有很多人不相信这是有道理的。就算他们做得已经很好了,还有一些论文中说浅的网络也能做得一样好,「深」是不必要的。 在神经网络研究的历史中,很长时间内大家不相信那么深的网络能够优化出来。做深度学习之前大家研究 SVM(Support Vector Machine,支持向量机),研究稀疏表示,很大程度上是线性问题。大家试图研究凸的(问题),非凸的还想办法转成凸的做,对于这么深的网络、这么复杂的事情、高度非线性又有这么多参数,数据又很少,很多人都不相信能把它优化出来。今天能够相当程度地解决也包含很多因素。残差学习是其中一个重要因素,但不是唯一的。 把大家研究出来的结论放在一起,才导致今天任意给一个深度网络都能很容易地训练出来,深度再也不是网络不收敛训练不好的问题,破除了以前的魔咒。 最后要说一下做出这个残差网络完全是团队(何凯明、张祥雨、任少卿和我)的集体智慧结晶,缺少任何一人都不敢说能走得到这一步,中间经历很多的失败和曲折。我深感能把我们 4 个不同技能的人凑在一起,打下一个「大怪兽」的幸运;和他们在一起忘我的研究过程是我研究生涯中最难忘的经历之一。 机器之心:在图像识别之外,残差网络还可以运用到其它领域吗? 孙剑:最近语音识别、自然语言处理都在用。它是一种思想,并不是一个局限于图像识别的一个方法。这个思想用在别的地方都管用,我们看到了非常多的例子,大公司、小公司都在用。 论文《Deep Residual Learning for Image Recognition》中,在 ImageNet 上使用残差网络优化后的效果比对图表 (责任编辑:本港台直播) |