所以很多人就说,Deep Learning 的三个 Ingredients : Algorithm(算法)Data(数据)和 Computation(运算)。它给我们带来了一次革命性的飞跃。 有了这个深度学习和机器学习的崛起,我们其实可以重新回到 Turing 和 Terry 给我们搭建的 AI 大的思路和框架里,重新解决一些在没有机器学习时完全解决不了的问题。
比如说,计算机视觉里面 Syntax 这个问题,这个问题实际上就是三维场景的结构,视觉世界的结构。这个问题在过去的二三十年有了长足的发展,用了很多机器学习的方法。今天,为什么无人车可以开始产业化,在算法方面很大的原因要感谢 3D 视觉这几十年来的成就。这是其中一部分。
第二部分,我们说 Semantics 这个问题,在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域,也是在这几年有蓬勃的发展,我们 ImageNet 团队一直在主持一个国际上的竞赛。从 2010 年开始,一直到 2015 年、2016 年,机器的进步,已经基本上达到了,甚至有时候超越了人的水平。
你现在看到的这幅图是机器的错误率,2010 年第一界 ImageNet 的时候,错误率还在 28% 左右。到了 2015 年,这个错误率已经到了 3.6%,人也差不多就是这个水平。所以,这是一个非常长足的进步。
刚才我给大家分享的是两个单独的元素:Syntax 和 Semantics。其实,就像 Terry 提出的一样,要真正做好 AI,要把这些元素全部结合起来。我们一步一步来看,下一步要结合的是 Syntax 和 Semantics,在计算机视觉里面它就是场景结构和语义,或者物体含义,一块的融合。 这项工作,也有不少人做,前段时间斯坦福的另外一位计算机视觉教授 Silvio Savarese 做了项比较重要的工作,就是把这个 3D 的建模和物体场景的识别结合起来了。
我们再往下推进一步,可以看出,我们现在在尽量完善这个图片。我们现在把 Language 加进来,结合 Vision,这是图灵给我们提出来的机器的智能终极目标之一。 所以,Language 和 Vision,是最近人工智能界非常关注的点。 下面这个工作,主要结合的是 Syntax 和 Inference,它 skip 了 Semantics,这是我的实验室最近和 Facebook 的一次合作。我们联合推出了一个视觉问题的 Benchmark(基准),它的意义是什么呢?我们跟 ImageNet 比较一下,ImageNet 主要在测试机器对 Semantics 的认知能力,就是物体分类。
这项工作,我们把它取名叫 CLEVR,它测试的是机器对 Language Vision 在 Syntax 和 Inference 方面能达到多好,它跟 ImageNet 基本上是反的。
具体是怎么做呢?具体我们用了一个图像引擎,去模仿很多很多的场景,又回到了更像积木一样的世界。在这些场景里面,我们又自动生成了很多问题。比如说,“这张图里有没有和半球一样大的积木?”这些问题是在挑战这个计算机系统对场景结构的理解,这个结构里面包括物体的大小,或者物体的材料,包括数字计算,也包括比较的能力,也包括空间关系,最后包括逻辑运算。所以,这在测试计算机好几层的能力。
这个数据库,组成了很多很多不同的场景,提出了很多不同的问题。然后,我们就可以通过用最好的深度学习模型来测试计算机做得怎么样。其中最好的,比如用 CNN 和 LSTM, 没有听过也没有关系,这是一种深度学习的模型。然后我们就会发现,计算机现在远远达不到人类的水平,比如数数能力,或者现在对材料的分析还不够好。而且,我们也远远达不到比较的能力,人是很容易比较出一个东西比另外一个东西大,计算机现在还远远没有达到。 (责任编辑:本港台直播) |