本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三(2)

时间:2017-04-01 01:01来源:本港台现场报码 作者:www.wzatv.cc 点击:
复杂语言系统的发展是 实现 人类水平的机器智能的关键。语言的语义来源于感知经验,可以编 码 有关感知世界的知识。这种知识能够从一个任务迁移到

  复杂语言系统的发展是实现人类水平的机器智能的关键。语言的语义来源于感知经验,可以编有关感知世界的知识。这种知识能够从一个任务迁移到另一个任务,赋予机器泛化的能力(generalization ability)。有研究认为,机器必须经历物理的体验,才能学习人类水平的语义[Kiela et al., 2016],即,必须经历类似人类的语言习得过程。然而,目前的机器学习技术还没有能以高效率实现这一点的方法。因此,我们选择在虚拟环境中对这个问题进行建模,作为训练物理智能机器的第一步。

  在通过自然语言的指导学习新的概念和技能时,人类是能够非常好地举一反三、推广泛化的。我们能够将已有的技能应用到新学会的概念上,而且毫不费劲。例如,当一个人在学会如何执行“用刀切 X”,X 等于苹果这个命令后,当 X 是其他这个人知道的东西,j2直播,例如梨或橙,或者甚至X是其他他从未被问过的东西时,他都能够正确执行这个命令。

  

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

  图1:XWORLD 环境和 zero-shot 导航任务的图示。(a)测试命令包含一个从未遇过的单词组合;(b)测试命令包含全新的物体概念,这些概念在前面的回合(a)的物体识别任务中学过。

  这篇论文介绍了一个框架,该框架演示了一个智能体在特定任务中的 zero-shot 学习能力,即,在名为 XWORLD 的类似迷宫的环境中学习导航(图1)。我们试图解决的问题与婴儿牙牙学语时在学习走路和导航中所遇到的问题类似。父母可能会给出一些简单的指导性的命令,其中最初只包含两三个单词,然后随着时间的推移命令逐渐变得复杂。同时,父母也会在其他一些任务中教孩子语言,例如识别物体的任务。在婴儿理解了语言并掌握了导航的技巧后,他能够马上把在物体识别中学到的新概念应用到导航任务中,即使这些概念从未出现在父母的导航命令中。

  我们在 XWORLD 中用多个学习回合训练我们的婴儿智能体。在每个回合,智能体得到一系列的原始像素图像用以感知环境,一个由 teacher 发出的自然语言形式的命令,以及一组奖励。当某些条件被触发时,智能体也偶尔会接到来自 teacher 的有关对象识别的问题。通过探索环境,智能体同时学习环境的视觉表示,语言的句法和语义,以及如何在环境中给自己导航。智能体的整个框架使用梯度下降端到端地从零开始训练。我们在三个不同的命令条件下测试智能体表现,其中两个要求智能体能够推广去解释从未见过的命令和词汇,而且框架的结构是模块化的,以便其他模块(如视觉感知模块和动作模块)在这种情况下仍然可以正常工作。我们的实验表明,该智能体在所有条件下表现得差不多好(平均成功率约 90%)。此外,简单学习图像和语言的联合嵌入的几个基线框架的结果很差。

  概况而言,我们的研究的主要贡献是:

一种将视觉和语言整合到一起的新的导航任务,使用深度强化学习(RL)。此外,该语言没有被预解析(pre-parsed)[Sukhbaatar et al., 2016]或被链接到环境中 [Mikolov et al., 2015, Sukhbaatar et al., 2016]。相反,智能体必须从零开始学习所有内容,并将语言置于视觉的基础上。

语言的多任务迁移学习加速了 RL。辅助任务中的语言习得可以帮助智能体更快地理解导航命令,从而更快地掌握导航技巧。

通过利用语言和模型架构的组合性(compositionality)得到 zero-shot 学习能力。我们认为这种能力是人类水平的智能的关键要素。

  XWORLD 环境

  首先,让我们简单介绍一下 XWORLD 的环境。更多细节请参见论文附录 8.3。XWORLD 是一个 2D 的栅格(grid)世界(图1)。一个智能体在多个时间步长 T 中与环境进行交互,其中有4个动作:上,下,左,右。训练过程有许多个回合。每个回合开始时,指导者(teacher)启动计时器并发出一个自然语言形式的命令,要求智能体到达环境中特定对象的位置。其中可能会有其他物体作为干扰物出现。因此,智能体需要区分不同的对象,并导航到正确的位置。智能体通过具有自我中心视图的 RGB 像素感知整个环境(图2c)。如果智能体在时间结束前正确执行了命令,则会得到积极的激励R +;每当它碰到墙壁,或者到达的位置不是目标对象时,分别会得到消极的激励R- w或R- o;假如智能体在徘徊不前,会得到消极奖励 R ? t。在每个回合结束后,环境和智能体都会被重置。

  下面是一些示例命令(括号里包含从智能体中保留的环境配置,下同):

请导航到苹果。(有一个苹果,一个香蕉,一个橙子和一个葡萄。)

你能移动到苹果和香蕉之间的网格吗?(有一个苹果和一个香蕉,苹果和香蕉间有一个空格隔开。)

你能移动到红苹果那儿吗?(有一个青苹果,一个红苹果和一个红樱桃。)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容