本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力(3)

时间:2017-04-03 18:14来源:香港现场开奖 作者:118KJ 点击:
图3.任务是控制一个 Fetch 机器人臂将块状物堆叠成不同的布局。整个过程需要数千个时间步长。我们将一个阶段定义为将一个块状物堆叠到另一个块状物上

  图3.任务是控制一个 Fetch 机器人臂将块状物堆叠成不同的布局。整个过程需要数千个时间步长。我们将一个阶段定义为将一个块状物堆叠到另一个块状物上的单次操作。上面显示的第一项任务有4个阶段,而第二项任务有3个阶段。

  算法

  为了训练神经网络策略,我们可以在序列决策问题中使用任何算法进行策略学习。例如,如果在训练任务中,可以获得励,我们可以使用强化学习来优化策略。唯一需要修改的是在每一阶段开始之前,对随机选择的示范限定策略。在本文中,我们将重点放在模仿学习算法,诸如行为克隆和 DAGGER(Ross 等,2011),这些算法只需要示范而非指定励函数。这具有更大的可扩展潜力,因为示范一项任务比指定一个精心设计的奖励函数更容易(Ng 等,1999)。

  我们首先为每个任务收集一组示范,在行动中添加噪音以便在轨迹空间中有更广泛的覆盖。在每个训练迭代中,我们对任务列表进行抽样(带替换)。对于每个抽样任务,我们对示范以及一小批观察行为进行抽样。根据当前的观察和示范情况,通过根据行为是连续还是离散的最小化 l2 或交叉熵损失来对策略进行训练,以复原到所期望的行为。在所有实验中,我们使用Adamax(Kingma&Ba,2014)进行优化,学习率为0.001。

  架构

  虽然原则上通过神经网络可以从示范和现场观察来调节行为,学习映射,但我们发现使用适当的架构很重要。我们学习块状物体堆叠的架构是本文的主要贡献之一,我们相信它代表了未来更具复杂性的小数据模拟学习。虽然,目标点到达任务更简单,但我们发现结构的抉择也至关重要,我们考虑以下的几个选择。

目标点到达任务架构

  对于这一问题,我们考虑三个架构

  a. 普通 LSTM:第一个架构是一个简单的LSTM(Hochreiter & Schmidhuber, 1997),有512个隐藏单元。它读取示范轨迹,然后其输出与当前状态连接,并馈送至多层感知器(MLP) 来产生动作。

  b. 带注意力的 LSTM:在本结构中,LSTM 从示范序列中输出不同地标的权重。然后,它在测试场景中应用该权重,并且在当前给定状态下,对于地标位置产生加权组合。然后,将此做二维输出,与当前智能体的位置相连接,以馈送至 MLP 以产生该动作。

  c. 带注意力的最后状态:这一架构不是看整个示范轨迹,只是看示范的最终状态(已经足以交流任务),并且产生了对于地标的权重。接下来就像以前的架构一样运行。

  请注意,这三种架构越来越专门针对特定的目标点到达设置,这表明在表达能力与泛化能力中存在潜在的权衡。我们会尝试将这一权衡量化。

块堆叠任务架构

  对于块堆叠任务,策略结构应具有以下属性:

  ? 应用于具有不同块数的任务实例应该很容易。

  ? 应该可以自然地泛化到相同任务的不同排列种。例如,该策略应该在任务 dcba 上运行良好,即使它只接受任务 abcd 的训练。

  ? 它应该可以适应不同长度的示范。

  我们提出的架构包括三个模块:示范网络、上下文网络和操纵网络。

  a. 示范网络

  如图4所示,示范网络接收示范轨迹作为输入,并生成示范嵌入以供策略使用。该嵌入的大小随着示范的长度以及环境中块的数量而线性增长。

  

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力

图4 示范网络

  b. 上下文网络

  上下文网络是我们模型的核心。如图5所示,它处理由示范网络产生的当前状态和嵌入,并输出上下文嵌入,其维度不依赖于示范的长度,或环境中的块数。因此,它被强制要求仅捕捉有相关性的信息,该信息将由操纵网络使用。

  

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力

图5 上下文网络

  c. 操纵网络

  操纵网络是最简单的组件。如图6所示,在提取源信息和目标块的信息之后,使用简单的MLP 网络计算完成当前阶段中堆叠块所需的动作。这种分工开辟了模块化训练的可能性:可以训练操纵网络来完成这一简单的过程,而无需获知示范或多于两个块的相关信息。这一可能性我们将在未来的工作中探究。

  

码报:【j2开奖】Open AI小数据模仿学习指向通用 AI,软注意力提高神经网络泛化能力

图6 操纵网络

  实验

目标点到达任务

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容