本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三(3)

时间:2017-04-01 01:01来源:本港台现场报码 作者:www.wzatv.cc 点击:
这个导航任务的难点在于,一开始,智能体对这种语言是一无所知的:每个字似乎都没有意义。经过试验和犯错后,智能体必须弄清语言的句法和语义,以

  这个导航任务的难点在于,一开始,智能体对这种语言是一无所知的:每个字似乎都没有意义。经过试验和犯错后,智能体必须弄清语言的句法和语义,以正确地执行命令。

  我们添加一个辅助的对象识别任务来帮助智能体学习语言。在探索环境的同时,当某些条件被触发时,teacher 会询问一些与对象有关的问题,问题的答案都是一个词汇,并且答案也由 teacher 提供。下面是一些 QA 示例:

Q:北边的物体是什么? A:香蕉。(智能体在香蕉南边,苹果北边,黄瓜西边。)

Q:香蕉在哪里?A:北。(智能体在香蕉南边,苹果东边。)

Q:苹果西边的物体的颜色是什么?A:黄色(苹果的西边有一个香蕉,东边有一个黄瓜。)

  我们希望智能体在这个辅助任务的帮助下,能够更快地学习语言。

  Zero-shot 导航的组合性框架

  我们的框架包含四个主要模块:语言模块,识别模块,视觉感知模块和动作模块。框架的设计主要受需要导航到新的物体的影响(图1b),这些新的物体概念不会出现在命令语句中(仅出现在识别模块中作为答案显示,而不会出现在图2a的语言模块)。

  这个框架有三个关键属性:

语言模块必须是组合性的(compositional)。该模块需要处理句子,同时保留(主要的)句子结构。例子之一是输出语法分析树(parse tree)的语法分析器(parser)。

归纳偏向(inductive bias)[Lake et al., 2016]必须从现有的句子中学习。语言模块知道如果用完全新的单词填充到已知结构里的单词位置时,应该如何解析句子。

语言接地(language grounding)(图2a)和识别(图2b)必须缩减成(大约)相同的问题。这样可以确保用n-1个单词训练的语言接地在从识别任务中训练的第 n 个单词上仍然能正常工作。

  

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

  图2:左:框架的示例。输入是环境图像和句子(一个导航命令或一个问题)。输出分别是导航动作或问题的答案。(a)中的红色和蓝色线表示完全相同过程的不同任务。右:语言模块。输入是字嵌入序列。输出是最后一步的注意力地图。

  实验

  我们使用了Adagrad,让随机梯度下降(SGD)的学习率达到10-5。在所有的实验中,我们把Batch 的大小设定在16,并且训练200k 的 batches。目标参数θ - 在每一个J=2k batches 中都会被更新。所有的参数都有一个默认权重衰退,相当于10-4x Bath 大小。对于神经网络中的每一层,通过默认其参数为0,以及一个标准的派生1/ √ N,其中N是每一层的参数数量。智能体总共拥有500k个探索步骤,探索率(exploration rate)α 的降低是线性的,从1到0。我们修正了编程步骤的数量S作为3。我们使用了4个随机的初始化来训练每一个模型。整个框架都使用PaddlePaddle 4来端到端的部署和训练。更多的部署细节会在附录8.1中进行描述。

  

wzatv:【j2开奖】【重磅】百度通用 AI 大突破,智能体通过交互式学习实现举一反三

  图3:训练激励曲线。图中显示的激励是每个回合累积的折扣激励,由每8k个训练示例平均得来。每条曲线的阴影区域表示4个随机初始化之间的方差。(a)我们的框架在不同的命令条件下的激励曲线。(b)标准命令条件下四个基线的曲线。

  zero-shot 导航

  我们的主要问题是智能体是否具有执行以前从未遇过的命令的“零样本”(zero-shot)导航能力。我们设计了4个命令条件来训练智能体:

标准(Standard)。训练的命令集与测试的命令集具有相同的分布。

(责任编辑:本港台直播)

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容