报码:【图】迁移学习进展：单次学习能力达人类水平（附论文）(2)_本港台直播_J2开奖直播

　　“人们学习的不仅仅是如何做模式识别，他们学习一个概念 - 即一个类的模型，允许他们获得的知识以新的方式灵活应用。除了识别新的例子，人们还可以生成新的例子，把一个字符解析成几个重要的部分和关系，并生成新的字符给定一小组相关的字符。这些额外的能力随着认识基本概念而来。即使对于这些简单的视觉概念，人们仍然比最好的字符识别算法更好。人们从更少的材料中学到更多东西，并且在机器中捕捉这些人类学习能力是 Characters Challenge。“

　　玩 Frostbite

报码:【图】迁移学习进展：单次学习能力达人类水平（附论文）

　　Frostbite是DeepMind团队训练一个DQN来玩的49个Atari游戏之一。其中29个游戏达到了人类水准，但Frostbite需要更长远的规划策略，这对 DQN 来说非常困难。“Frostbite Bailey”必须在时间限制内建造一座冰屋，同时跳上浮冰，收集鱼类和避免危险。

　　“有趣的是，虽然DQN用很少的先验知识训练到人类水准，但是DQN用完全不同于人类的方法，学习玩 Frostbite 和其它游戏”

它需要更多的训练时间 - DQN与只有有2小时的训练时间的职业玩家进行比较; DQN用了38天，在受控测试期间达到了人类水平的10％以下。

人类可以在几分钟内掌握游戏的基础。“我们推测，人们通过推出一种通用模式描述游戏的目标和对象的类型以及他们的交互，并运用各种直觉理论、建模能力，以及我们下面描述的基于模型的计划机制。”

人类可以快速适应他们所学到的新目标。例如：获得最低的分数; 获得最接近却又不超过限制的分数; 恰好在时间点击零之前最晚通过每一关; 得到尽可能多的鱼等等。

　　“这一目标突出了人类智能的一个重要组成部分：人们可以学习模型，并将其用于任意的新任务和目标。”

　　当然，人类可以快速学习和适应的原因之一是，我们可以处理具有广泛的先前经验的新问题，而DQN从头开始。我们如何构建不总需要从头开始的机器学习系统？

　　“我们如何带来丰富的先验知识，以快速地学习新任务和解决新问题？先验知识采用什么形式，以及它是如何构建的，从内置能力和以往经验的某种组合？“

　　接下来的三个部分突出介绍了应对这一挑战的一些核心要素。

　　“...下一代的神经网络将看起来与当前的最先进的技术非常不同。他们可以被赋予直觉物理学，心理理论，因果推理和其他能力...“

　　直观的物理学

　　如果你通过深度学习和Wolfram Alpha ++，你会得到什么？人类在其发展周期的早期对数个核心领域有了了解，包括数字，空间，物理和心理学。

　　“在2个月也许更早的时候，人类婴儿期望无生命物体遵循持久性，连续性，内聚性和坚实性的原则。年轻的婴儿认为物体应该沿着平稳的路径移动，不眨眼进出现有的，不是相互穿透的，而不是在远处行动...。“

　　6个月的时候，进一步的期望围绕刚体，软体和液体发展。12个月的时候有了如惯性，支持，遏制和碰撞的概念。

　　“在深度学习系统中嵌入或获取这种物理直觉的前景是什么？“

　　来自Facebook AI Team 关于 PhysNet 的一篇的论文可能是朝这个方向迈出的一步 - 它可以学习对具有两个，三个或四个立方体块的塔的稳定性进行简单的“Jenga-style”计算。它对真实图像处理达到人类水准，在模拟图像上超过人类水准。PhysNet确实需要大量的训练，而人们不需要那么多训练，而效果却更好。

　　“深层学习系统如PhysNet是否能捕获这种灵活性，而不需要明确模拟三维物体之间的因果关系？我们不能确定，但我们希望这是他们将要承担的挑战。“

　　直觉心理学

　　我们不知道这是怎么做到的，一个解释是使用行为选择的生成模型（“贝叶斯理论”模型）。这些模型将诸如“目标”，“代理”，“规划”，“成本”，“效率”和“信念”等概念形式化。通过模拟agent的规划过程，人们可以预测下一步可能做什么，或者从一系列推断agent所相信和使用的行为反过来推导。

　　“与对象和力量一样，尚不清楚这些概念（代理，目标等）的完整表示是否可以从纯粹的预测能力训练的深层神经网络中出现...“

(责任编辑：本港台直播)