图:pixabay 原文来源:arXiv 作者:YuXuan Liu、Abhishek Gupta、Pieter Abbeel、Sergey Levine 「机器人圈」编译:嗯~阿童木呀、BaymaxZ 模仿学习(Imitation learning)是自主系统获取控制策略的有效方法,尤其是当明确的奖励函数不可用时,可使用由专家,通常是人类操作者提供的监督作为演示。然而,开奖,标准的模仿学习方法假设智能体可以接收到“观察-行动”元组样本,而这些往往可以提供给监督学习算法。这与人类和动物的模仿行为是截然相反的:我们观察另一个人的行为表现,然后找出哪些行动将实现这些行为,以何种视角、周围环境以及具体体现补偿这种变化。我们将这种模仿学习称为观察模仿(imitation-from-observation),并提出了一种具有环境转化和深度强化学习的、基于视频预测的模仿学习方法。这便引出模仿学习中的假设,即演示应该包括在同一环境中的观察和行动,并且可以进行各种有趣的应用,包括学习机器人技能,如观察人类使用工具的视频所涉及到的工具,进行简单使用。实验结果表明,我们的方法可以实现一系列基于常见家务活动建模的、真实世界机器人任务的观察模仿。 学习(learning)可以使诸如机器人之类的自主智能体,去学习适用于各种非结构化环境的复杂行为技能。为了使自主智能体能够学习这些技能,必须向他们提供一个监督信号,从而指示出所需行为的目标。 这种监督通常来自两个来源,其中之一:强化学习中的奖励函数,指定哪些状态和行动是可取的,或者是模仿学习中的专家演示,提供成功行为的样本。这两种模式已经与诸如深度神经网络这样的高容量模型相结合,以便能够通过原始的感官观察来学习复杂的技能(Ross,Mnih和 Levine等人在其论文中皆有所提及)。强化学习的一个主要优点是,智能体可轻易获得技能,而这只需要通过奖励函数对目标所提供的一个高级描述进行审查和查错就可以实现。但是,奖励函数可能难以手动指定,特别是当任务的成功只能从诸如摄像机图像的复杂观察中确定时(Edwards等人于2016所著论文中有所提及)。 一般来说,模仿学习可通过使用成功行为的样本来绕过这个问题。通用的模仿学习的方法包括通过行为克隆的直接模仿学习(Pomerleau于1988所著论文和Bojarski等人于2016所著论文中皆有所提及)和通过反强化学习的奖励函数学习(Ng和Russell于2000所著论文中有所提及)。这两种设置通常都假设智能体可以接收到包含“观察-行动”元组序列的样本,然后必须学习一个函数,在泛化到新情景时,将样本序列完成从观察到行动的映射。 但是,这种模仿概念与人类和动物所进行的模仿有着天壤之别:当我们在观察别人从而学习新技能时,我们不接受以自我为中心的观察和参考标准。观察是从其他视角中获得的,而行动是未知的。此外,人类不仅能够从现场观察中学习演示行为,还可以从与自己有着明显不同的行为的视频中进行学习。 我们可以设计能够在这种情况下成功实施的模仿学习方法吗?而针对这个问题的解决方案将在机器人技术方面具有相当可观的实际价值,因为它产生的模仿学习算法可以直接利用那些记录人们执行期望行为的自然视频,而这个是可以从互联网上获得的。 我们把这个问题定义为为观察模仿(imitation-from-observation)。观察模仿的目标是仅学习来自所期望的行为的观察序列(例如摄像机图像)的策略,而每个序列是从环境差异下获得的。环境的差异可能包括实时环境的变化,正在操作对象的变化,以及视角的变化,而观察结果可能是由图像序列组成的。我们将在下文第3节正式定义这个问题。 我们的观察模仿算法是基于学习环境转化模型的,它可以将论证从一个环境(例如,第三人称视角和人类演示者)转换到另一个环境中(例如,第一人称视角和机器人)。通过训练一个模型来执行这种转换,我们获得了一个非常适合追踪演示行为的特征表示。然后我们使用深度强化学习来优化行为,从而能够在目标环境中最佳地追踪转化演示。正如我们在实验中所阐述的那样,这种方法明显比以前那些学习固定特征空间(Stadie等人所著论文中有所提及),进行对抗模仿学习(Ho和Ermon于2016所著论文中有所提及),或直接追踪预先训练的视觉特征的方法更具有鲁棒性(Sermanet等人所著论文有所提及)。我们的转化方法是能够提供具有可解释性的奖励函数,并且在许多模仿和实际操纵任务中表现良好,其中就包括需要机器人模仿人类工具使用的任务。 使用Context Aware translation模型进行的观察模仿 (责任编辑:本港台直播) |