符号的 VS. 统计的、纯手工的 VS 可自我学习的、专用领域的 VS 通用的。尽管前者更依靠人类自己的理解,但是从人工智能的发展历史来看,那些统计化的、可自我学习的、通用的方法已经逐渐变得越来越重要。 未来 1. 监督学习的可扩展性有多大?并不太大 a. 通过神经网络,学习的进程已经被大幅扩展。 b. 可扩展性是有限度的,因为它需要人们提供训练数据。 2. 强化学习的可扩展性有多大?并不太大 a. 一个经典的与不受模型限制的强化学习可以通过失败与错误学习出一条规则,不需要数据标注。 b. 计算是廉价的,没有什么扩展性。 3. 相比较仅仅一个权值方程和策略,相比较仅仅老师告诉你的什么是应该做的事,还有太多的东西要学。 4. 世界经验知识的大挑战(知识表达与推理)。 a. 知识的定义:知识是关于世界的状态和变化。 i. 状态是事物过去的总结,它可以用来预测它将来的状态。 ii. 有了状态的知识就是有了一个好的总结,它能够使预测更精确。 iii. 预测本身就是动态的知识。 iv. 需要预测的最重要的东西是状态和奖惩,当然,这取决于 agent 是做什么的。 b. 举个例子,知识可以是知道象棋里的每一小步如何走,知道什么导致了什么,预测下面会发生什么。 c. 知识必须具有可表达性(可以表示所有重要的事物)、可学习性(监督的或者非监督的)、适合推理和论证。 d. 感觉运动观点(与感觉运动阶段有关的感觉运动)。 i. 你的数据流其实就是你所知的世界中的每一件事。 ii. 知识在数据中。 5. 一个古已有之的宏伟目标是用感觉运动数据来理解世界。 a. 能够在各个抽象层次做预测。 b. 这个目标非常适合进行扩展,它利用大量的数据来学习预测行为以及搜寻最好的抽象。 6. 在未来 12 个月中机器学习领域最重要的进展将会是: a. 从寻常知识中进行大规模学习的能力。 i. 从与世界的互动中进行大规模学习的能力。 ii. 这种学习不再需要已标注数据的训练集。 iii. 以一种更自然的方式学习,就像儿童或者动物那样。 iv. 学习世界如何,以及理解因果性。 b. 能够使机器学习扩展到更高的水平。 c. 使用深度强化学习来进行远期预测(可能)和/或 无监督的学习。 7. 新工具 a. 通用的价值函数为高效可学习可预测的知识提供了一种统一语言。 b. 可选项以及备选模型(时域抽象)。 c. 可预测的状态表达。 d. 新的离策略(off-policy)学习算法(梯度-TD,强度-TD)。 e. 时域差分网络。 f. 深度学习,表达搜索。 结论(最终看法) 1. 摩尔定律极大地影响了人工智能的发展。 2. 人工智能的未来属于可扩展的方法、搜索与学习。 3. 能够从平常经验中学习知识是一种巨大的进步。 4. 我们的计划应该具有雄心,并且可扩展,还要有耐心。 5. 在 AI 领域的研究者中,对于着眼于未来的可扩展性并不是十分有吸引力。因为对于想要出成绩的研究者而言,他们更希望自己对相关领域的贡献可以在短期内有显著的影响力,更希望自己的知识与新奇的想法应用的现有的研究当中。然而,随着硬件计算能力的提升,即使是一个算法具有优秀扩展性的算法没法在短期内满足研究应用的需求,从长远来看这样的算法将会很有竞争力。这就像「一步到位方法」vs.」长期演进方法」。研究者们应在他们自己的研究中找到平衡点。 相关阅读 通过强化学习教机器下象棋 https://www.technologyreview.com/s/541276/deep-learning-machine-teaches-itself-chess-in-72-hours-plays-at-international-master/ 关于假肢的实时预测 https://webdocs.cs.ualberta.ca/~sutton/papers/PDDCCHS-13.pdf Rich NIPS 2015 RL tutorial https://www.microsoft.com/en-us/research/video/tutorial-introduction-to-reinforcement-learning-with-function-approximation/ ©本文为机器之心原创,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |