本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

强化学习的福音!NL帮助交互式ML算法提高效率

时间:2017-07-30 04:40来源:报码现场 作者:本港台直播 点击:
图:pixabay 原文来源 : arXiv 作者:Brent Harrison、Upol Ehsan、Mark O. Riedl(佐治亚理工学院) 「机器人圈」编译:多啦A亮、BaymaxZ 在这项工作中,我们提出了一种使用自然语言以帮助强化

图:pixabay

原文来源arXiv

作者:Brent Harrison、Upol Ehsan、Mark O. Riedl(佐治亚理工学院)

「机器人圈」编译:多啦A亮、BaymaxZ

在这项工作中,我们提出了一种使用自然语言以帮助强化学习的技术,将其扩展到不可见的环境。这种技术使用神经机器翻译来学习自然语言行为描述与状态动作信息之间的关联。 然后,我们使用这个学习的模型来指导智能体探索,使其在不可见的环境中学习更有效。我们使用流行的电子游戏Frogger,在理想和非理想的条件下评估这种技术。该评估表明,我们修改的策略整形算法相对于Q-learning 智能体以及策略整形的基准版本进行了改进。

交互式机器学习(IML)算法旨在通过人类知识来增强机器学习,以使智能系统更好地在复杂环境中做出决策。这些算法允许人类直接与机器学习算法进行交互,以便训练他们比自己能够更快地学习任务。通常,人们通过提供智能体可以学习的积极行为的演示来与这些系统进行交互,j2直播,或者训练训练者在探索其环境时提供对智能体的在线批判。虽然这些技术已被证明是有效的,atv,但是有时训练训练者可能难以提供必要的示范或批评。示范可能要求训练训练者具有关于系统或其环境的先前知识,训练训练人员可能必须在智能体开始使用之前提供数百个反馈实例。当考虑到智能体发现的每个新环境都必须进行此项训练时,这个问题就更加复杂了。

在这项工作中,我们力求通过使用自然语言以减轻人类训练训练者的负担,使交互式机器学习算法更好地概括为不可见的环境。由于语言是人类交流的主要方式之一,因此使用语言来训练智能智能体应该比人类使用演示或批评更自然。另外,在我们提出的方法中,智能体正在学习时,不需要在线提供自然语言教学。它可以离线,大大减少了训练者所需的时间。。通过这项工作,我们的目标是使用人类语言来学习这些类似人类的状态抽象,并用它们来增强在不可见环境中的强化学习。

为此,我们使用神经机器翻译技术(特别是编器—解器网络),学习自然语言行为描述与状态/动作信息之间的广义关联。然后,我们使用这种模型,可以被认为是广义行动建议的模型,以增强最先进的交互式机器学习算法的状态,使其在不可见的环境中更有效。对于这项工作,我们选择修改策略整形,一种从人类批判中学习的交互式机器学习算法。

我们使用电子游戏“Frogger”评估这种技术。具体来说,我们评估我们的技术对基本的Q-learning算法和使用策略整形,该算法使用演示作为在各种理想和非理想条件下对一组看不见的Frogger地图进行学习任务的策略批判。

总而言之,本文的主要贡献如下:

1)我们展示了如何使用神经机器翻译来创建行动建议的广义模型;

2)我们展示了如何使用这个模型来增加策略整形以实现加强学习智能体可以在不可见的环境中更好地学习;

3)我们在电子游戏“Frogger”中对多种理想和非理想情况下以前看不到的地图进行了以我们的方法的评估。

这项工作主要涉及人工智能研究的两个体系:交互式机器学习和强化学习中的知识迁移。交互式机器学习(IML)算法使用人类提供的知识来帮助训练机器学习模型。这允许人类专家能够帮助训练智能体,从而使这些智能体能够比自己学习得更快。通常人类与智能体进行交互,提供正确行为的演示或直接批评智能体的行为。我们的工作旨在除了演示或批评外,还可以通过自然语言学习来改进这些方法。

对于使用自然语言以增强机器学习算法来说,还有很多其他工作。使用自然语言指导来帮助强化学习完成任务,我们已经做了很多工作。该领域的早期论文集中在学习环境中这些指令与特定控制序列之间的学习映射。在以前的工作中,语言主要用于指导如何在特定环境中完成特定任务。换句话说,语言和状态是紧密耦合的。我们的工作与这项工作不同的主要方式是,我们正在寻求使用语言作为抽象工具。我们的工作重点是探索如何使用语言来帮助强化学习智能体将知识迁移到不可见的环境中。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容