在几个小时的练习后,计算机会把自己学习接近目标、通过与门手的接触和推拉进行开门的原始经验分享出来。在开门这一任务中,计算机学会了处理挂钩和门手之间的物理联系,在这一过程中,并不需要对现实世界进行具体的建模,见下面这个例子:
通过与物体相互作用学习 对于单个技巧的学习来说,直接试错的增强学习是一个绝佳的方法。但是,人和动物并不是通过独立的试错进行学习的。对于自身的环境,我们会建立一个精神模型,并会想象,通过自己的行动,世界会发生什么样的改变。 我们可以从最简单的物理作用谈起,让我们的机器人学习从对自身经验的反应上,学习基本的因果关系。在这个实验中,我们让机器人与许多不同的常见家庭日用品玩游戏,随机地把这些东西放到一个盒子中。 机器人又再次分享了自己的经验,并共同建立了一个简单的预测模型尝试预测,世界会对它们的行动作出什么回应。这一预测模型在获得了现有的图像和机器人可能会执行的行动方案 后,可以产生对未来的摄像头照片的简单预测,虽然有些模糊。
上排:机器人的手臂与常用家居用品的互动 下排:获得原始图像和一个行动序列后,预测未来的摄像头照片 一旦这一模型的训练完成,机器人就能使用它来执行带有目的性的操作任务,比如,基于用户命令的任务。在我们的原型中,用户只需要简单地点击一下目标物体,再点击一下目标方位,就能命令机器人去移动这一物体:
在这一实验中,机器人并没有获得任何关于物体和物理的任何形象:他们看到的只是任务要求的特定像素,来移动到特定的位置。但是,由于他们在过往分享的经验中,见到了如此多的物体交互,它们能预测到某一具体的行动是如何影响到特定的像素的。为了让这种对物体的理解能够出现,必须要给机器人提供足够广泛的体验。这对时间或者分享的经验提出了要求。下面是关于这一项目的一个扩展视频。
在人类的帮助下进行学习 目前为止,我们讨论了如何让机器人完整地从自身进行学习。但是,人类的指导也很重要的,人类不仅要告诉机器人如何行动,还有如何帮助机器人。对于许多任务的技巧改如何部署,人类有着大量的洞见,把这些洞 见转移给机器人,以帮助它们更快地进行学习,这一点也是很自然的。在下一个实验中,我们会给每一个机器人提供不同的门,把手把手地给它们展示,如何打开这些门。这些展示会被编入一个统一的机器人战略中,叫策略。这一策略是一个深度的神经网络,能把摄像头的图片转化成机器人行动,并储存在中央处理器中。下面的视频展示的就是人类向机器人展示开门技巧: 接下来,多个机器人将联合通过试错学习过程提升这一策略。每一个机器人都在使用最新可用的策略,来尝试打开自己面对的门,其中一些会加入噪音。这些尝试会让每一个机器人策划出一个更好的开门策略,同时从整体上提升策略。 (责任编辑:本港台直播) |