本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力(2)

时间:2017-04-03 18:14来源:香港现场开奖 作者:118KJ 点击:
然而, 开奖 ,到目前为止,模仿学习并没有成为人们寄予厚望的新技术。模仿学习的实际应用需要细致的特征工程,或大量的系统交互时间。这远不是我

  然而,开奖,到目前为止,模仿学习并没有成为人们寄予厚望的新技术。模仿学习的实际应用需要细致的特征工程,或大量的系统交互时间。这远不是我们想要的:理想情况下,我们希望仅对机器人展示一次或几次特定任务,而它可以立即泛化到相同任务的新情况上,atv,而无需长时间的系统交互或关于具体任务的背景知识。

  本文探讨了小数据模仿学习的设定,其目标是在面临新的、未曾见过的任务时,且在只收到该任务一次范例输入的条件下,最大限度提高策略的性能。一旦接收到任务范例,该策略不需要任何额外的系统交互,就能实现良好的性能。

  研究者在广泛分布的任务集上训练策略,任务的潜在数量是无限的。对于每个训练任务,都假设存在一系列成功的范例。训练策略的输入是:(i)目前的观察结果;(ii)成功解决了同一个任务的不同实例的范例。该策略的输出是当前的控件。值得注意的是,同一任务的任何一对范例都为神经网络策略提供了一个有监督的训练样本,其中一个范例被视为输入,另一个作为输出。

  为了使这个模型正常工作,研究者使用了软注意力来处理范例相应的状态和行动序列,以及处理具化了环境中各种块位置的矢量组件。对这两种类型的输入,软注意力的使用都使得泛化成为可能。特别地,在图1所示的块堆叠系列任务中。论文提出的神经网络策略在创新的块堆叠任务上表现良好,这些不存在于任何训练数据中。

  如果能够在各种各样的任务和示范中进行训练,得到适当扩展,这种方法很有可能成功地学习一个模型,可以将复杂任务传达给机器人,使其在许多真实环境中表现良好。

  两个任务:目标点到达和块堆叠

  为了说明样本设置问题,我们将描述两个具体案例:一个是目标点到达任务,另一个是块堆叠任务。

目标点到达任务

  目标点到达是一项非常简单的任务。在每一任务中,我们控制一个机器人到达一个特定的地标,不同的任务由不同的标识来标识,如图2所示。一项任务是达到橙色区域,而另一项任务是到达绿色三角形区域。智能体可以接收自己的二维位置和每个标识的二维位置。在每个任务中,智能体的初始位置以及所有地标的位置,可以在不同的任务中发生变化。

  若没有示范,机器人不知道应该到达哪个地标,也不能完成任务。因此,这一设置是小数据模仿的本质,即通过示范来传达任务。在学习之后,智能体应该能从演示中识别目的地标识,并在新的任务中到达同样的地标。

  

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力

  图2.机器人是一个用二维力量控制的点。这一系列任务是到达目标地标。每一个任务的地标特征均有所不同,模型必须根据示范找到所要追寻的目标。(左)图示机器人;(中)任务是到达橙色的盒子;(右)任务是到达绿色三角形。

块堆叠任务

  我们现在考虑一系列更具挑战性的任务,需要更高级的操作技能使得不同任务可以共享一个组合结构,这使得我们能够研究重要的未见任务的泛化问题。在块堆叠系列任务中,目标是控制一个 7-DOF Fetch 的机器人臂,将各种数量的立方体块堆叠成为用户指定的结构。每个结构由排列成不同高度的塔的块状物体组成,并可以由诸如 ghij 或 ab cd ef gh 的字符串标识,如图3所示。每一个结构对应不同的任务。在一个典型任务中,观察相对于夹具的一系列对象位置(x,y,z),以及夹具打开或关闭的信息。对象的数量可以在不同任务中不断变化。

  

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力

初始状态。块被随意摆放在桌子上。

  

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力

  堆叠成 4 个塔的过程,每个高度为 2。其中 A 块置于 B 块上,C 块置于 D 块上,E 块置于 F 块上,G 块置于 H块上。任务被标识为ab cd ef gh。

  

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力

  堆叠成 1 个塔的过程,高度为 4。其中 G 块置于 H 块上,H 块置于 I 块上,I 块置于 J 块上。任务被标识为 ghij。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容