而且最先进的系统、最复杂的系统都在用这个思想。并不是简单的用残差网络这个方式做,比如语言处理中的一个环节想要做做深,原来两层就不行,现在可以做得很深。用残差学习或跳层连接做得很深,效果很好,训练也很容易。并不是说以前不能搭这么深,搭这么深结果更差,现在有自由度想搭多深搭多深。 当然也不是说越深越好,跟问题和数据都有关系。考虑复杂度和效果肯定是找折衷点,不过现在不受深度的约束了。 机器之心:那您还会继续残差网络的研究吗? 孙剑:这是我们的一个中间结果。我觉得残差网络是一方面,但是我们做研究希望找下一个大想法,当然结构可能融合了残差网络方法,因为它这个很好的思想并不是具体的一个网络。 后来有很多人开发各种网络,结构都不一样,但残差网络的思想是其中必不可少的部分。现在所有网络都是残差网络,重点已经不是加残差网络了,而是说在以加了它为基础的情况下,再去研究别的特性,把这个问题再深刻理解,怎么能够做得更好。举个例子,分类能做得好,但这个网络未必适合于检测、分割这样的问题。只有把问题理解更深入,才能设计出最适合特定问题的网络。 关于 ImageNet 测试与数据 机器之心:ImageNet 已经诞生了很长时间,现在用它的测试结果判断一个图像识别模型好不好用还可行么?或者,我们应该如何去判断一个图像识别的模型是优秀的? 孙剑:ImageNet 今天仍有它的价值。做新问题新的标注数据很少,还离不开这个数据集。它很通用,上面 pre-train 的模型肯定不是最优的,但是在只有很少数据的时候起到了很大作用。另外 ImageNet 做得很好,它的训练和测试之间也是非常一致的。它是诞生研究方法、新的思想的平台,包括我们做人脸识别,都是通过 ImageNet 继承来的思想和做法。 当然遵循游戏规则得到了冠军固然可贺,但主要还是看是否有可以通用的新方法或思想。随着深度网络的快速发展,ImageNet 1K 这个数据目前已经很容易出现严重的过拟合了,期待下一代的 ImageNet 出现。我们最近也在考虑如何设计更好的 ImageNet。 机器之心:李飞飞后来也做了图像与语言结合的 Visual Genome,您认为在数据集方面还有哪些值得去做的事? 孙剑:Visual Genome 这个数据集非常好,李飞飞她们付出了非常大的努力,我们也在用这个数据集。数据集中不只有图像一个层次,图像里面的物体、物体之间的关系都标出来了,包括动作关系、位置关系都有。 Visual Genome 的标注情况,详见其官网 Paper 部分 这些是研究认知问题必须要有的东西。比如房子上是没有马的,这件事情是常识。以前通过大量的数据统计学习可以做,送进来很多训练数据,确实数据里房子上没有马。但其实也隐含这件事,还没有表示出来,一旦你的算法出现了这种情况(房子上有马)就是已经做错了。但是如果能引入语言的话,他就会告诉你新的常识,房子上没有马。 换句话说,为什么 Visual Genome 清楚的描述照片很重要?比如你想教计算机认图片,你怎么教?教小孩图里面有什么、谁在干什么,语言可能是最自然的教计算机认图的方式。 希望这个库更大,也许再增加两个数量级就会产生下一个意想不到的突破。 机器之心:有更多维度的标注数据,会是解决图像识别问题的重要方向之一吗? 孙剑:现阶段可能是。有两个新的方向我们也在尝试,一个是制造合成数据,通过图形学的方法造出一些非常逼真的、和真正训练图像很像的图。用这个方法可以产生大量数据,而且有标注,可以得到很好的效果,能不能搞得真实还需图形学的同行们努力。另一种方法是,通过对抗学习或者叫对抗神经网络,可以从一堆样本中没有监督的自动生成生成新的样本。 标注方面有的标注是人工,有的标注网上已经有的,包括视频中前后两帧的相关性也是一种标注。我们训练人脸识别,只需要知道这几张照片是同一个人,另几张照片不是同一个人的。或者只需要知道这两张是同一人,那两张是同一人,这些标注都可以用来训练。 (责任编辑:本港台直播) |