八年前,一个很简单但重要的事情然我的思维得到了非常大的改变,那就是从孩子学习的过程中得到了灵感,因为我们并没有告诉一个孩子你要怎样认出一只猫,我们没告诉他猫是这个样子,哪里是三角形、圆形,他们只是靠经验学习。如果我们把孩子的眼睛看作一对最简单的生物照相机,他们每秒钟可以拍照5次,到3岁的时候,孩子们已经看过了成百上千万张世界各样的照片。所以,在我们找到更好的算法之前,我们需要给计算机进行像孩子们大脑发育时期一样的训练,也即是给计算机比目前领域内所使用得多得多的训练数据集。 我们花了很多时间来做这项研究。我和普林斯顿的同事一起在网络上找到了很多图片、很多数据,我们用了成百上千的图片构建这套系统。在三年的辛勤研究后,2009年我们终于做出了这样一个体系,其中包括1500万张图片和22000个不同的单词门类,都是我们日常见到的,从数量和质量来说,这个系统在计算机视觉和机器学习方面都是前所未有的,我们也因此在解决计算机物体识别这个问题上,比以往任何时候都准备充分。 从孩子的角度,我们获取了宝贵的第一课,从大量数据中学习。 来自大脑的灵感:卷积神经网络 这一图片库提供的丰富资料也完美适配卷积神经网络,这是最初由70、80年代代科学家们开拓的一个领域,其灵感来自大脑。 就像我们的大脑一样,卷积神经网络有成百上千个“类神经元”单位互相连接在一起。 这是一个非常经典的放在电脑上的神经系统,它大概有2400万个节点,1.4亿个参数和150亿个接口。 拥有这么庞大的信息的图片库,卷积神经网络算法以难以预料到的速度迅速发展了起来,也在物品识别上给我们带来了一些非常振奋人心的结果。 电脑告诉我们这张照片里有一只猫,这个猫在那里;这边是计算机告诉我们,小孩拿着他的泰迪熊。我们看到的物体都比较小,但电脑还是能够识别出来。 截止到目前,我们都一直专注于教电脑怎样识别物体,就像小孩学最简单的单词一样,这只是第一步,小孩很快会进入下一阶段的发展,那就是用句子交流。 所以要教电脑看懂图片,并且用一句话来描述它,我们其实需要用到神经系统,并且把神经系统推向一个高度,我们需要把视觉信息和文本信息结合起来,并且让它生成出一句具有意义的句子。 又经过一个阶段的努力研究,大概是一年半以前,我们成为了第一批通过深度学习让电脑在看到图片后告诉我们一些信息的实验室。 之后我们把图片获取的能力和视觉识别结合起来,我们发现针对一张图片,计算机其实可以生成很多句不同的话,能够提供给我们更多信息。这是我们最近的一项工作,大概是一年半之前出版发表的,电脑能够在一幅画中整理出非常多的句子。 我们也在近期提交了另外一篇论文,这篇论文中提到,计算机能够用算法生成出完整的自然段。 得到大脑的启发之后,我们发现深度学习的算法和公式能够帮助我们做一些视觉方面的检测, 这是从人脑这个视角得到的启发。 从技术从业者的视角:让真实世界从中获益 (责任编辑:本港台直播) |