本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络(2)

时间:2017-05-29 11:38来源:118图库 作者:118开奖 点击:
但重要的是下面这个发现。完成了网络训练之后,我们利用这个训练好的网络,并将之放置到不同的有着随机障碍和起点终点位置的迷宫环境中。我们希望

但重要的是下面这个发现。完成了网络训练之后,我们利用这个训练好的网络,并将之放置到不同的有着随机障碍和起点终点位置的迷宫环境中。我们希望知道这个训练好的神经网络是不是真的理解这项任务的本质要求。如果这个网络真的能做到理解 understand,那么及时给定一个他从未见过的迷宫环境,他也应该有能力成功的到达终点。对应到一开始我们提到的开冰箱的例子,这也就是所谓的泛化能力。让人感到意外的是,反应式网络结构并不能在新的迷宫环境中成功泛化。训练好的神经网络可以在训练中出现过的地图上表现完美,但是在没有见过的测试地图上,它并不能很好的完成任务。

那么为什么反应式网络不能很好的泛化呢?我们之前讨论的任务都需要连续做出一些决策。也就是,这些决策需要一定的规划的计算,也就是 planning。比如在迷宫问题中,我们记录下来我们从原点出发的路径,然后比如进行一些推理和长期规划。

深度强化学习通过不同的算法学习了一个从输入图片到决策的映射函数。尽管有多种算法,但是总体上深度强化学习确实在某种程度上进行规划计算。

比如 policy gradient 算法就会学习出有着较高总体回报的决策;Q-learning 算法会学习有着较高 Q 值 - 也就期望的最终回报较高的策略;模仿学习则会让人来做出好的规划,并让机器来模仿人的行为。这里我们注意到,深度强化学习的算法,确实会在训练环境中进行一些规划计算。但是这些训练出来的神经网络,即使是在最新的一些工作中,所展现出来的泛化能力也多局限于训练任务中。也就是,开奖,通过在训练任务中的训练,神经网络有了一定的在训练任务中泛化的能力。

但是,如果我们将神经网络放置于一个全新的任务当中呢?在一个全新的任务中,神经网络需要根据新的任务和环境进行重新规划。但是目前的神经网络结构并不能学会这样的能力,并且,尽管现在的网络都很复杂,但这些结构多是简单的堆积,并没有对于规划计算的比较好的直接的表达。在这个工作中,我们提出了一个新的网络结构。这个结构有能力学习如何进行规划。我们也将展示,这个网络结构能够更好的泛化。

模型

  

wzatv:【j2开奖】GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络

下面来看我们的工作。那么该如何设计一个可以规划的网络呢?我们从反应式网络出发,并在传统的反应式网络结构之上,额外增加一个规划模块,并利用规划模块提供的额外信息来做更好的决策。

那么现在就有了如下几个问题:规划什么?怎么个规划?如何利用规划模块的信息?如何端对端的来学习网络参数?我们依次来解答这些问题。

价值迭代规划

  

wzatv:【j2开奖】GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络

首先,一个经典的规划算法叫 value iteration。值迭代算法。这个算法会对每一个状态计算一个值函数。这个值函数代表了从当前状态出发,进行最佳长期规划后所能得到的期望收益。

那么,我们该如何计算值函数呢?

Value iteration 算法反复利用上面面这个式子迭代来计算每个状态的值直至收敛。我们具体来看这个式子。考虑一个状态的 value 值的迭代计算。在这个式子里:我们首先枚举决策,一个决策对应一个目标状态的概率分布,我们计算出当前的回报和可以到达状态的当前 value 值的期望的和。然后选出最佳决策对应的计算结果作为该状态的当前 value 值。具体迷宫问题而言,每一个状态就是一个格子,而一个决策就是一个对于周围8个相邻格子的一个概率分布。对于每一个决策,我们将这个概率分布与相邻格子的值相乘求和后得到当前决策的计算结果。然后我们对于所有的决策取出最大值最为当前状态的计算结果。

每一个决策,可以对应于卷积神经网络中的一个通道(channel)。不同的通道有不同的计算结果。最后一步求最大值的操作则对应于卷积神经网络中的最大池化层(max pooling)。这一层计算我们对于相同位置不同通道的结果取最大值。

卷积加池化的组合就完全对应了 value iteration 算法中的一次 value iteration 迭代。如果要进行多次 value iteration 计算也很容易。我们可以和一般的神经网络一样,将上述计算反复堆叠形成深度较深的网络。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容