译者:熊笑、随一 【新智元导读】为了向通用 AI 迈进,神经网络“举一反三”的能力最近成为了研究热点,OpenAI 和 UC-Berkley 的这一研究使用 “软注意力”提高神经网络泛化能力,提出了“小数据模仿学习”(one-shot Imitation Learning)。实验里,神经网络看了一次例子,就能在新的情况下完成类似的任务。研究人员表示,经过更多训练,他们的模型完全可以将任何场景都转化为具有鲁棒性的策略,从而完成各种不同的任务。作者包括 OpenAI 研究负责人 Ilya Sutskever,还有 UC-Berkley 的Pieter Abbeel。 模仿学习通常用于解决孤立的不同任务,这通常需要细致的特征工程或大量样本。但这远不是我们所期望的:理想情况下,机器人应该能够从任何给定任务的少量范例中学习,并且可以立即泛化到相同任务的新情况中,而不需要任务特定化的工作。这篇论文提出了一种实现这种能力的元学习框架,研究者将其称为小数据模仿学习(one-shot imitation learning)。 具体来说,任务集很大(可能是无限的),每个任务都有许多实例。例如,一个任务可能是将桌子上所有的块堆叠成一个塔,另一个任务可能是将桌子上的所有块堆成两个塔,等等。在这种情况下,任务的不同实例包括了具有不同初始状态的不同块组。在训练时,研究者为算法提供了一组所有任务子集的范例。训练一个神经网络时,将一个范例和其现有状态作为输入,并输出动作,以求所得到的状态和动作序列尽可能地与第二次示范相匹配。在测试时,研究者向神经网络提供了新任务的单个实例的示范,希望神经网络在新任务的新实例上有良好表现。实验表明,软注意力(soft attention)的使用使得模型能够泛化到训练数据中未出现的条件和任务上去。研究者预计,通过在更多种类的任务和设置上训练这一模式,可以获得一个通用系统,将任何范例转变成可以实现多种任务的具有鲁棒性的策略。
小数据学习策略。一个可训练用于解决多种任务的单一策略。
左侧:特定任务策略。策略被训练用于将块堆叠成两个塔,每个高度为3; 右侧:分离特定任务策略。策略被训练用于将块堆叠成三个塔,每个高度为2。 图1.传统上,策略是特定于任务来说的。例如,通过模仿或增强学习,一个策略被训练出来,可以将块堆叠成高度为 3 的塔,然后另一种策略被训练出来,可以将块堆叠成高度为 2 的塔,等等。而这篇论文对不是针对于某一个特定任务的策略感兴趣,本文理想的策略是,可以通过一个范例了解当前的新任务是什么,并在这个新任务中取得成功。作为说明性的样本,我们希望能够为每个任务提供一个单一的范例,从中得到的小数据策略可以知道如何应对该任务的新情况(比如块被重新随机摆放)。 研究介绍 研究者对能够执行各种复杂且有用的任务的机器人系统感兴趣,例如收拾屋子或准备一顿饭。机器人应该能够快速学习新任务,而不需要长时间的系统交互。要做到这一点,必须解决两个问题: ?第一个问题是灵活性:机器人应该学习如何接近、抓住和拾取复杂的未激活对象,以及如何将它们放置或摆放成所需的样子; ?第二个问题是沟通:如何传达当前任务的意图,以便机器人可以在更广泛的初始条件下复制。
示范是一种非常方便的信息形式,我们可以用它来教导机器人应对这两个挑战。使用示范,我们可以明确地传达任何操作任务,同时提供执行任务所需的具体运动技能的线索。我们可以将其与沟通方式进行比较,即自然语言。虽然语言具有高度通用性,又有效又高效,但是自然语言处理系统尚未达到我们可以轻松地使用语言来精确描述机器人复杂任务的水平。与语言相比,示范有两个根本的优点:第一,它不需要语言知识,因为将复杂的任务传达给没有掌握某种语言的人是可能的;第二,即使系统具有完美的语言能力,有很多任务非常难以用语言解释,比如解释如何游泳,如果没有示范和经验,似乎很具有挑战性。 (责任编辑:本港台直播) |