获取训练数据的方式是非常多的,数据训练也是非常重要的,我们也是最大努力获取最好的数据。对于旷视的研究员来说,获取数据是研究责任的一部分,想办法获取也好,造也好,拿到数据是工作职责之一。 关于计算机视觉的过去和未来 机器之心:您涉足图像领域已经有近二十年的时间,在您看来这个行业有什么样的特点?到今天有哪些可以称之为里程碑的事件? 孙剑:我至今还觉得我还是这个行业的新手,好多东西了解还是比较浅的,不敢妄自评判里程碑事件,这绝不是谦虚。当然深度学习是最近、最重要的事件,再之前可能是机器学习方法引入计算机视觉,改变了计算机视觉中很多问题的研究方式。在现在火热的深度学习之前,atv,更多的是怎么用机器学习、统计学习来研究和思考视觉问题。 这不是某一个时间点突然发生的,而是一段时间内慢慢发生的。这对计算机视觉改变很大,以至于今天非常大比例的计算机视觉人员都是非常懂机器学习的人。 有一个里程碑是深度传感器的普及。2009 年,微软 Kinect 诞生是当时的一个大事件,因为终于可以很方便和低成本地获取 3D 信息 了。计算机视觉有两大问题,一个图像理解,一个三维重建。求解 3D 是梦想,原来需要拍两张或多张照片,费很大的劲儿来重建。今天有 sensor 直接可以测量 3D。它一下就开启了今天和未来的很多应用。 至于未来,我的导师沈向洋博士经常引用的一句话是:「The best way to predict the future is to create it.」 机器之心:接下来计算机识别或者说图像识别的发展,哪些问题是亟待解决的? 孙剑:我觉得挺难预测的。今天大家都在研究无监督学习,因为监督学习已经比较成熟了,但无监督学习不够好,这是非常大的问题。我在很多年前读过《On Intelligence》,最近又读了一遍,再次受到很多启发。无监督学习当然很重要,现在有很多人研究,但还没做到马上能解决问题,从一堆无标注的数据生成另一堆无标注的数据,很难说立刻能带来多大的实际价值。 《On Intelligence》,副标题为「How a New Understanding of the Brain will Lead to the Creation of Truly Intelligent Machines」 我现在看好两个研究方向,一个是深度神经网络,必须能记住东西。并非长短时的短期记忆,而是像小孩长大一样的长时间记住,有一个大的记忆库,把事物放进去还可以决定要不要拿掉,或者把它们关联在一起,都需要有记忆机制。现在大多数有监督学习都记在网络参数里,并没有显式的记忆。虽然已经有很多不错的研究了,但还没到实用,我觉得这会是一个非常大的突破。 还有一个方向是,如何完成连续的输入-输出。人之所以能处理这些视频、做好无监督学习,因为在实时处理各种视频,连续输入、连续输出。现在的问题是,大家不知道怎么准备这样的训练数据来教计算机。可以把视频输入进去,可你想教它什么呢?教它什么,教到什么颗粒度还不清楚。 送入连续的、动态的内容,少量的有标注(数据)、大量的没标注,因为不可能将所有的内容都标注。在学术领域中组织一个大的训练问题让大家研究,才能推动下一步的进展。因为现在数据的进出都在拟合一个单一的函数 F(x),深度学习完成得非常好。但当函数不是静态的输入-输出时,是不断变化的输入,该怎么做是非常大的挑战。 机器之心:有一种声音认为,我们现在的计算机视觉太专注于研究人脸识别这样的功能分支,这还是停留在识别(或者说是感知)层面,是否也应该去关注认知这个更加重要的目标? 孙剑:这是个误解,计算机视觉领域从来就没有太专注研究人脸这个问题,Face++ 也不是只研究人脸。我们主要做我们最关心的 4 个计算机视觉的核心问题(图像分类、物体检测、语义分割、和序列学习),还有核心网络训练问题、底层构架问题、深度学习平台问题等。 (责任编辑:本港台直播) |