我们的实验旨在评估我们的环境转化模型是否能够实现模仿观察,以及现代代表性方法对这种模仿学习任务的表现如何。我们想要回答的具体问题是: (1)我们的环境转化模型能否处理原始图像观察、视角变化,以及对象在环境之间的外观和位置的变化? (2)与我们的方法相比,以前的模仿学习方法,atv,在存在这种变化的情况下,表现如何? (3)我们的方法对现实世界的图像有何好处,能否使现实世界的机器人系统学习操作技巧? 所有结果,包括说明性视频和进一步的实验细节,请访问https://sites.google.com/site/imitationfromobservation/。 模拟环境 为了与替代现有的模仿学习方法进行详细比较,我们使用MuJoCo模拟器(Todorov等人于2012年提出)设置了四个模拟操作任务。演示是使用参考标准奖励函数(ground truth reward function)和先前策略优化算法(prior policy optimization)(Schulman等人于2015提出)生成的。 图:四个模拟任务:到达(左上)、清扫(左下)、推(右上)和击打(右下) 这些任务如上图所示。第一个任务是要求机器人手臂在存在颜色和外观变化的情况下,到达由红盘指示的目标位置。第二个任务是在存在不同的牵引器物体的情况下,将白色圆筒推到红色的杯托上。第三项任务要求模拟机器人在视角不同的情况下将五颗灰球从灰尘中扫除。第四个任务是使用7个自由度的操纵器将一个白球击中一个红色的目标。 6.2环境转化的比较性评估 在新环境(中间)中执行一个到达任务(上)演示的示例图,最下面一行是转化的观察序列(底部) 图5:与几种现有方法进行对比,到达、推、清扫和打击任务的比较。结果表明,我们的方法成功地学习了每个任务,而先前的方法无法执行到达、推送和打击任务,只有预先训练的视觉特征方法能够在清扫任务中得到较好的改善。第三人称模仿学习和生成对抗模仿学习在图表上的成功率均为0%。 我们的方法的比较评估结果如图5所示。性能是根据目标对象到测试目标的最终距离进行评估的。在到达任务中,这是指机器人的手与目标的距离,在推动任务中,这是指圆柱体与目标的距离,在清扫任务中,这对应球在簸箕中的平均距离,并且在击打任务中,这是指球离目标位置的最后距离。 如图5所示,结果表明,当从随机环境中提供演示时,我们的方法能够成功地学习每个任务。 值得注意的是,以前的方法在到达、推,或者打击任务方面,均没有成功,而且清扫任务也很费力。这表明在存在环境差异的情况下,模仿观察是一个非常有挑战性的问题。可在项目网站上查看定性结果视频:https://sites.google.com/site/imitationfromobservation/。 真实环境 ?推 从视频中转化,将实际演示中的推动任务设置为模拟环境中的状态 我们的方法与其他方法在真实世界中的演示与模拟世界中的策略学习的成功率对比 我们的方法的视频从Sawyer机器人的任意视角成功地将对象推送到目标上。左:人类提供的演示动作。右:机器人模仿学习 ?清扫 上图:演示人员将杏仁扫进簸箕;下图:演示人员将杏仁倒进锅中 上图:使用我们的方法,机器人成功地将杏仁扫进簸箕 下图:使用我们的方法,机器人成功地将杏仁倒入烹饪盘中 (责任编辑:本港台直播) |