李飞飞:我特别不知道该如何回答这类问题(笑)。实际上,我从自己做研究开始,就不是一个特别关注热点的人。如果我关注热点,就没有今天的 ImageNet。当然,我并不是说不应当关注热点。我不希望这句话被理解为热点不好,我也需要谦虚地学习,像GAN(对抗生成网络)这样的新模型,我认为它非常具有创造性,是非常好的模型。但它也才刚刚开始,主要还是呈现出一些定性的结果(qualitative results)。 做研究而言,我一直鼓励学生要独立思考。每个人做研究都有不同的心得,我个人的心得是,眼睛看到的前方应该是比较空旷的。如果你眼睛看到的前方是热闹的,那这个方向就不是最好的研究方向。而空旷的地方一般都不是热点,因此你必须找准自自己的焦点。我比较喜欢研究一些基础的(fundamental)问题,这些问题有时候会是热点,有时候则会是“冷点”。科学家是最不能跟风、追求时尚的,科学家一定是追求原则性和原创性的东西。 要学习和研究计算机视觉,必须要做两件重要的事,一是知道过去,二是展望未来。知道过去当然就是大量阅读文献。我有一点担心,就是现在深度学习的热潮高涨,大多数学生只读过深度学习的论文。实际上,不管是计算机视觉还是自然语言处理、机器学习,都是走过了几十年的路程,有很多重要的工作都是在 2012 年之前完成的。计算机视觉在学术界,基本上完成了识别这个工作,可是很多学生可能都不知道,这是从上世纪五六十年代就开始的计算机和脑神经生物学基础研究一脉相承传递下来的,从 Hubel & Wiesel 的研究开始,到后面心理学家的研究,比如 Irvine Biederman 提出将物体分成几个不同的部分。这都是一步一步、一代一代去更新、去调整,不管是 Yann LeCun 1998 年提出的卷积神经网络,还是 Hinton 他们后来的工作,都传承了很多重要的思想,年轻的学生如果不去了解这种思想传承的过程,不从中汲取营养,就很难创造新的东西,只是知其然不知其所以然。所以,这是温故的一部分。而往前看,就像我刚才说的那样,研究的视野需要空旷,不要繁杂。计算机视觉走到今天也是到了一个转型期,纯粹的像素空间(pixel space)、识别(recognition),可能已经不是最新颖的思路了。目前看,有两个比较重要的新方向,一个是视觉和语言的结合,另外一个是视觉与机器人的结合。 另外,我们还有很多的没有解决的问题,也就是“open problems”,比如视频,现在处理视频基本上是平的,图片怎么处理就怎么处理视频,把视频分为N张图片串起来。但实际上,视频是很深奥的,涉及对运动、行为(behavior)、因果关系(causality)、动态(dynamics)、预期(intention)、代理(agent)这些因素的理解,这些环环相扣,都需要我们对计算机视觉有新的思考。 建立所有数据集的初衷,都是想通过汇集高质量的、标准化的、可衡量的、很准确的数据,直播,推动领域里算法的进步。 做 Visual Genome 是因为在感知任务,比如图像分类有很多进展,但是在认知任务,比如图像描述和问答计算机表现得不怎么样。如果我们不仅仅诉求识别出图像,而要深究我们视觉世界的意义,那么认知是最核心的任务。用于解决图片内容丰富的认知任务的模型,依然使用给感知任务设计的相同数据集来训练。要在认知任务中获得成功,模型需要理解对象和物体之间的交互和关系。 CLEVR 是我的学生 Justin Johnson 去 Facebook 暑期实习的时候,我们合作的一个项目。参与这个项目的还有 Facebook 的研究员 Lawrence Zitnick,他也是参与 COCO 的研究者,对数据集有很深度的思考。我们设计 CLEVR 的目标很明确,那就是实现详细的视觉推理分析。尽管 CLEVR 中的图像可能看起来很简单,但它的问题却很复杂,需要一系列的推理能力。具体我们用了一个图像引擎,去模仿很多很多的场景,又回到了更像积木一样的世界。在这些场景里面,我们又自动生成了很多问题。比如说,“这张图里有没有和半球一样大的积木?” 这些问题是在挑战这个计算机系统对场景结构的理解,这个结构里面包括物体的大小、材料,包括数字计算,也包括比较的能力、空间关系和逻辑运算。CLEVR 旨在测试计算机的好几层的能力。 对创业者最大的建议,不要拿着锤子找钉子 新智元:虽然您提到才去谷歌 6 天,不过这边的氛围跟斯坦福还是很不一样吧? (责任编辑:本港台直播) |