本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三(4)

时间:2017-04-01 01:01来源:本港台现场报码 作者:www.wzatv.cc 点击:
NC 。在训练的命令集中删除某些词汇组合,虽然训练命令集中仍包含所有单词。具体来说,我们考虑了三种类型的词汇组合:(object,location),(object,

NC。在训练的命令集中删除某些词汇组合,虽然训练命令集中仍包含所有单词。具体来说,我们考虑了三种类型的词汇组合:(object,location),(object,color)和(object,object)。我们列举了美中类型的所有组合,并随机在 teacher 的导航命令集中删除了10%的组合。

NWNav 和 NWNavRec。一些物体词(object words)被排除在导航训练之外,而且仅出现在识别任务的训练中,作为新的概念。NWNavRec 保证新词不会出现在问题中,而只能出现在答案中;NWNav 则不出现在答案中。我们随机排除了10%的物体词。

  我们的框架在不容的训练环境下都有相同的超参数。在测试中,我们把留存( held-out)综合物/词语 拉回到命令中(例如,标准的条件),并且测试了10k 的session,用于四个导航的次级任务: nav_obj, nav_col_obj, nav_nr_obj, and nav_bw_obj (Appendix 8.3).

  

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

  图10.不同session 中attention 地图的例子。顶部:导航命令。中间:当下的环境图像。底部:相应的attention 地图,由语言模块输出。需要指出的是,attention 地图都是自我为中心的,地图的中心就是智能体的定位。

  

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

  图11. 用两个例子来描述语言的编程过程。考虑到当下的环境图像和导航命令,程序通过三个步骤生成一个attention map。

  在每一个步骤中,程序会关注不同的句子中的不同部分。词语的attention 通过彩色线条进行可视化,其中,越亮的部分代表更多的attention。在左边,每一个彩色线条代表的相应的attention 地图和当下的环境,以及此前储存的一个(图2 右)。最后的attention地图被用作程序的输出。

  

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

  图12:bypassing long walls的例子。在每一个通道中,只有三个关键的步骤得到了展示。

  我们计算了成功率,其中成功指的是智能体要在每一个session规定的时间内抵达目标定位。图3a 展示了训练的回报曲线,表1a 包含了成功率。曲线之间彼此很接近,这和期待的一致,因为指令(commands)10%的减少几乎不会改变学习的难度。我们在所有的环境下都获得了几乎相同的成功率,并且获得了高的zero-shot 成功率。NWNavRec 的结果显示,虽然一些新的对象概念是从一个完全不同的问题中进行学习的,但是它们也能够在不需要任何模型训练和调参的倾向下,在导航这一方面进行测试。

  

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

  表1:成功率(%),(a)我们的框架和SimpleAttention(SA)在不同训练命令条件(列)下的四个子任务的分解率。最后四行显示包含测试session,包含训练中没有看到的命令。 (b)标准命令条件下所有方法的总体成功率。

  结论

  本文展示了虚拟智能体的一个端到端的组合框架,能够将已学会的技能推广到新的概念,而无需建模再训练或微调。这种推广能力是通过重新利用在其他任务中学到的,并由自然语言编的知识实现的。通过以不同的方式组合词汇,智能体能够应对新的任务,同时利用现有的知识。这种能力对于快速学习和更好地泛化至关重要。我们在框架实际中反映了这些重要观点,并将其应用于具体的例子:在 XWORLD 中执行 zero-shot 导航。

  我们的框架只是一个可能的实现。框架的一些组件仍存在改进的空间。我们的主张并不是一个智能体必须像论文中展现的那样具有心智模型(mental model),但是必须具有在第1节和第4节所讨论的几个关键属性。目前,智能体还只是在 2D 环境中进行了探索。未来,我们计划将该智能体放到例如 Malmo [Johnson et al。,2016]那样的 3D 环境中。这将会提出一些新的挑战,例如,视觉感知和几何变换将更加难以模拟。我们希望目前的框架为如何在 3D 环境中训练类似的智能体提供一些初步的思考。

  (更多实现细节请参考论文,下载地址:https://128.84.21.199/pdf/1703.09831.pdf)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容