本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

「模仿学习」很强大,但和「强化学习」有什么

时间:2017-08-11 05:11来源:118论坛 作者:开奖直播现场 点击:
「模仿学习」很强大,但和「强化学习」有什么关系 2017-08-10 18:35 来源:机器人圈 原标题:「模仿学习」很强大,但和「强化学习」有什么关系 原文来源 : Stats and Bots 作者:Vitaly K

模仿学习」很强大,但和「强化学习」有什么关系

2017-08-10 18:35 来源:机器人圈

原标题:「模仿学习」很强大,但和「强化学习」有什么关系

原文来源Stats and Bots

作者:Vitaly Kurin

「机器人圈」编译:嗯~阿童木呀、多啦A亮

在本文中,Statsbot团队请教计算机科学家Vitaly Kurin简要介绍模仿学习,并概述强化学习的基本知识。

生物有机体是及其复杂的。即使是诸如苍蝇或蠕虫这样相对简单的生物也是如此。他们不仅能够在现实世界中成功生存,而且对环境的变化有着极强的适应力。人类可以提前计划,亦可以根据新的信息改变我们的计划,我们还可以与他人合作,以便更有效地执行我们的计划。

科学以及诸如欧洲核子研究组织CERN)或阿雷西沃天文台的巨大无线电望远镜等这样的项目都是人类协作和规划的艺术的完美印证。

所有试图创造一个具有更小的自主权的人造有机体的尝试都表明,多年的进化过程并不是徒劳的,而建立这样的有机体是一项艰巨的任务。

不错,我们承认,我们现在可以在国际象棋或围棋中击败最优秀的选手,我们可以在Atari 2600的视频弹球中获得近似疯狂的分数,甚至,我们可以在扑克赛中挑战人类,从而使其破产。那么我们是否能打开一瓶香槟庆祝胜利?恐怕不能。

是的,机器学习最近取得了突破性进步。新的深度学习理念与旧版本的结合使我们能够在诸如计算机视觉、语音识别和文本翻译等许多领域得以进步。

强化学习也从它与深度学习的结合中受益匪浅。而对于深度强化学习的成功,想必你也早有耳闻,j2直播,例如在Atari 2600比赛中取得超越人类的成绩,战胜围棋高手,以及让机器人学习跑酷(parkou)。

来源:statsbot博客

但是,atv直播,我们不得不承认,在现实世界中的成功运作要比玩游戏或太空入侵要困难得多。许多任务比这要难得多。想象一下,一个孩子在拥挤的市中心中间骑着自行车,或者一个人以每小时200英里的时速开着保时捷飞奔在高速公路上。面对这样的现实,我们必须承认,距离目标的实现,我们还有很远的路要走。

为什么我们还没有实现目标呢?

典型的机器学习方法是从头开始对模型进行训练。给它一百万张图片和一些时间,从而对其进行识别。给它一个星期,让它玩太空入侵者,直到它能够达到一个可以接受的分数。而我们,作为人类,与其有着不同的诉求。

当一个人开始玩一个他从未见过的游戏时,他已经拥有了大量的预先信息。在“蒙特祖玛的复仇”这款游戏中,如果他看到了一扇门,他就会意识到,在某个地方应该会有一把钥匙,他需要找到钥匙。当他找到钥匙的时候,他记得那扇关着的门是在他曾穿过的两个房间的后面,然后他会返回从而打开那扇门。而当他看到一个梯子时,他意识到可以爬上去,因为他已经做了几百次这样的事情了。如果我们可以以某种方式将人类对世界的了解转移给智能体将会怎样呢?我们该如何提取所有的这些相关信息呢?我们该如何创建一个基于此的模型呢?这时候就出了这样一种方式,我们称之为模仿学习。

模仿学习并不是唯一一个利用人类数据的好方法。一些研究人员也称之为“学徒学习(apprenticeship learning),而另外一些研究人员将其称为“从演示中学习”(Learning from Demonstration)。从我们的角度来看,所有这些标题之间并没有实质性的区别,我们将从现在开始称其为模仿学习。

为了引入模仿学习,我们首先需要了解强化学习的基础知识。

强化学习

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容