报码:【j2开奖】完整视频 | 谷歌云首席科学家李飞飞：一堂人工智能公开课(3)_本港台直播_J2开奖直播

　　最近，给我们带来最大的一次神经网络，或者叫深度学习冲击的 work，是 2012 年 Alex Krizhevsky 和他的导师 Geoffrey Hinton，一块写的 AlexNet，其实 AlexNet 和 1998 年的 Convolutional Neural Networks 区别不大。但是，为什么在 2012 年这个大致的历史时期，深度学习和神经网络发生了一次井喷式的成长和革命呢？是因为 3 个重要的因素：

　　1. 这些算法的不断优化和成长。

　　2. 互联网给我们带来的海量数据，这也是我和我的学生们，在 9 年前做的一项工作 ImageNet。

　　3. 硬件的发展。

　　所以很多人就说，Deep Learning 的三个 Ingredients : Algorithms（算法）Data（数据）和 Computation（运算）。它给我们带来了一次革命性的飞跃。

　　有了这个深度学习和机器学习的崛起，我们其实可以重新回到 Turing 和 Terry 给我们搭建的 AI 大的思路和框架里，重新解决一些在没有机器学习前完全解决不了的问题。

　　比如说，计算机视觉里面 Syntax 这个问题，这个问题实际上就是三维场景的结构，视觉世界的结构。这个问题，在过去的二三十年，有了长足的发展，用了很多跟机器学习的方法。今天，为什么无人车可以开始产业化，在算法方面很大的原因要感谢 3D 视觉，这几十年来的成就。这是其中一部分。

　　第二部分，我们说 Semantics 这个问题，在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域，也是在这几年有蓬勃的发展，我们 Image Captioning 团队一直在主持一个国际上的竞赛。从 2010 年开始，一直到 2015 年、2016 年，机器的进步，已经基本上达到了，甚至它有时候超越了人的水平。你现在看到的这幅图是机器的错误率，2010 年第一界 Image Captioning 的时候，错误率还在 28% 左右。到了去年 2015 年，这个错误率已经到了 3.6%，人也差不多就是这个水平。所以，这是一个非常长足的进步。

　　刚才，我给大家分享的是两个单独的元素：Syntax、Semantics。其实，就像 Terry 提出的一样，要真正做好 AI，要把这些元素全部结合起来。我们一步一步来看，下一步要结合的是 Syntax、Semantics 在计算机视觉里面它就是场景结构和语义，或者物体含义，一块的融合。

　　这项工作，也有不少人做，前段时间斯坦福的另外一位计算机视觉教授搜沃塞维塞西，他们做了项比较重要的工作，就把这个 3D 的建模和物体场景的识别，结合起来了。

　　我们再往下推进一步，可以看出，我们现在在尽量完善这个图片。我们现在把 Language 加进来，结合 Vision，这是 Turing 给我们提出来的人的智能终极目标之一。

　　所以，Language 和 Vision，是最近人工智能界非常关注的点。

　　下面这个工作，主要结合的是 Syntax 和 Inference，它结合了 Semantics，这是我的实验室最近和 Facebook 的一次合作。我们联合发现了一个 Benchmark（基准），它的意义是什么呢？我们跟 ImageNet 比较一下，ImageNet 主要在测试机器对 Semantics 的认知能力，就是物体分类。

　　这项工作，我们把它取名叫 CLEVR，它测试的是机器对 Language Vision 在 Syntax 和 Inference 方面能达到多好，它跟 ImageNet 基本上是反的。

　　具体是怎么做呢？具体我们用了一个图像引擎，去模仿很多很多的场景，又回到了更像积木一样的世界。

　　在这些场景里面，我们又自动生成了很多问题。比如说，这张图里有没有和半球一样大的积木？这些问题是在挑战这个计算机系统对场景结构的理解，这个结构里面包括物体的大小，或者物体的材料，包括数字计算，也包括比较的能力，也包括空间的关系，最后包括逻辑运算。所以，这在测试计算机好几层的能力。

　　这个数据库，组成了很多很多不同的场景，提出了很多不同的问题。然后，我们就可以通过用最好的深度学习模型，来测试计算机做的怎么样。其中最好的，atv直播，比如用 CNN 和 LSTM, 没有听过也没有关系，这是一种深度学习的模型。然后我们就会发现，计算机现在远远达不到人类的，比如数数能力，或者现在对材料的分析还不够好。而且，我们也远远达不到比较的能力，人是很容易比较出一个东西比另外一个东西大，计算机现在还远远没有达到。

(责任编辑：本港台直播)