这两张幻灯片讲的是训练深度神经网络的过程,atv,所有灰色图片是每一层提取的特征。当然,如果你觉得这些幻灯片内容很难理解,可以首先学习卷积神经网络以及反向传播算法。 他也介绍了 深度卷积网络的架构:VGG、GoogleNet 和 ResNet 接着,他介绍了一些驾驶方面的研究——使用卷积网络对行驶中的汽车进行图像标注和语义分割。另外,他也给出了一些图像识别的例子。 在这一过程中,我们使用了计算机视觉和卷积网络方面的知识。 Obstacles to Progress in AI [33:50] 人工智能发展中所面临的难题 上面这张幻灯片告诉我们,机器需要通过观察和行动来获取某种程度的常识,这样才能准确预测、规划以及关注重要事项。记忆相关事件并预测如何行动才能得到我们想要的世界的状态。 智能&常识=感知+预测模型+记忆+推理&规划 常识是一种填空能力 从部分信息推出世界状态 从过去和现在推断未来 从当前状态推断过去事件 补充视觉盲点的视野内容 补充被遮挡的图像 补充文本、语音缺失部分 预测行动结果 预测导致结果的行动序列 人类有常识。比如,看看下面这幅图片 我们知道这个人拿起包并要离开房间。我们之所以有常识是因为我们知道世界运行原理,不过,机器怎么学会常识呢? 从提供的任何信息预测过去、现在以及未来的任何一部分。这就是预测学习(predictive learning)。不过,这是很多人对无监督学习(unsupervised learning)的定义。 无监督学习/预测学习的必要性 训练大型学习机器所需的样本数量(无论为了完成何种任务)取决于我们需要预测的信息量大小。 你需要机器回答的问题越多,样本数量就要越大。 如果想用很多参数训练一个非常复杂的系统,就需要海量训练样本让系统预测很多内容 「大脑有 10 的 14 次方个突触,我们却只能活大概 10 的 9 次方秒。因此我们的参数比我们所获得的数据会多的多。这一事实激发了这一思想:既然感知输入(包括生理上的本体感受)是我们每秒获取 10^5 维度约束(10^5 dimensions of constraint)的唯一地方,那么,就必须进行大量的无监督学习。」 预测人类提供的标签,一个价值函数(value function)是不够的。 然后 LeCun 举了个例子,解释了不同的学习算法进行预测需要多少信息。如下幻灯片所示。 随后,他使用两篇预测视频帧的论文阐述了强化学习系统,这是 Facebook 赢得 VizDoom 2016 比赛的研究结果。[Wu & Tian, submitted to ICLR 2017] 和 Plug: TorchCraft: interface between Torch and StarCraft [Usunier, Synnaeve, Lin, Chintala, submitted to ICLR 2017]. 他在这里还提到了人工智能的成功案例 AlphaGo,不过很难将其用于真实世界。因为围棋的世界一步步的,我们的学习系统可以通过许多训练样本获得经验。但真实的世界是存在许多问题的,我们永远不能加速真实世界来进行训练模型。 智能系统的架构 这一部分是关于人工智能系统架构的,我认为这对我们很重要,所以我把四张 PPT 贴到这里。但是,除了 PPT 上的内容,Yann 并没有展开太多。
上述理论非常类似于下述的控制论。 下面的这个幻灯片简单但非常清楚地勾勒了人工智能的架构,如果读者了解模式识别的基本过程,你也能理解这个架构。 这里的关键词是模拟世界和目标函数(objective function)。因此,你要懂它们的意思。 学习关于世界的预测性正演模型 (责任编辑:本港台直播) |