本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络(4)

时间:2017-05-29 11:38来源:118图库 作者:118开奖 点击:
我们利用传统的强化学习算法进行训练,并将 VIN 和反应式卷积神经网络进行对比。同样,在测试集中,我们将采用与训练集完全不同的障碍物和起点终点

我们利用传统的强化学习算法进行训练,并将 VIN 和反应式卷积神经网络进行对比。同样,在测试集中,我们将采用与训练集完全不同的障碍物和起点终点组合。这里我们展示了在测试集中,小钢球最终距离目标位置的距离的分布。蓝色是 vin 的结果。我们可以发现,相比卷积神经网络,vin 的输出结果非常的精准。

注意到这是一个单独的固定的神经网络的输出结果。这个网络读入图片的信息和小钢球的位置,并输出对小钢球的作用力。这些测试集中的环境都是在训练是没有出现过的。Vin 并不是一直成功,但是显然 vin 展示了一种很合理的移动策略。

更多实例

  

wzatv:【j2开奖】GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络

除此之外,我们还将 VIN 应用到了一个完全不同的领域,自然语言处理。这个任务,WebNav,是给定一个问题,并将用户随机放到一个维基百科页面上。问题的答案会处在另一个随机选定的维基百科页面上。用户需要通过点击网页链接在而找到问题答案所在的页面。在 WebNav 的原本论文中提出了一个基于反应式网络的方案。我们在维基百科中选出了 3% 的页面组成了一个近似图并在近似图上进行规划。我们将 vin 的输出作为额外信息作为反应式网络的输入。我们发现利用 vin 的额外信息,原文提出的反应式网络也有了更好的泛化能力。

最后,我们也可以堆叠组合多层的 value iteration 模块,来对问题进行不同层次的具体规划。

总结

最后总结一些我们的工作。最重要的一点就是:通过学习规划计算,learning to plan,我们可以使得网络有着更好的泛化能力。基于一个,可求导的规划算法 value iteration,我们提出了新的有能力学习规划计算的网络结构,vin。Vin 作为一个额外模块,可以轻松的与不同的其他网络结合来解决不同的问题。最后,vin 的灵活性和可用性怎样呢?这取决于我们希望对强化学习的模型本身进行多强的干预。

Model-Free RL 几乎不对任务本身有任何的先验假设,而 model-based RL 或者 inverse RL 则需要对任务进行精确的近似。Vin 可以认为是一个介于两者中间的方法。保留了 model-free RL 的灵活性,有着比较好的泛化能力,却也不像 model-based RL 那样需要对任务有着很强的先验知识。当然还有很多的相关的工作,这里不多作介绍。

未来的工作

  

wzatv:【j2开奖】GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络

未来我们希望能够采用更多的不同的规划算法,也希望能够将更多的更加复杂的结构加入的神经网络中,来解决更加复杂的问题。

  更多有关GMIS 2017大会的内容,请点击「阅读原文」查看机器之心官网 GMIS 专题↓↓↓

  

wzatv:【j2开奖】GMIS 2017 | NIPS最佳论文作者之一吴翼:价值迭代网络

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容