本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】视频 | 谷歌最新研究曝光: 合作式增强学习让机器人掌握通用技能

时间:2016-10-04 20:07来源:118论坛 作者:www.wzatv.cc 点击:
? 业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报告;? 国际大咖“视频”远程参会, Bengio 和李飞飞联袂寄语中国人

  ? 业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报告;? 国际大咖“视频”远程参会, Bengio 和李飞飞联袂寄语中国人工智能;? 探秘讯飞超脑及华为诺亚方舟实验室,最强CTO与7大研究院院长交锋;? 滴滴CTO与百度首席架构师坐镇智能驾驶论坛,新智元三大圆桌阵容史无前例;? 中国“大狗”与"X-Dog"震撼亮相,龙泉寺机器僧“贤二”卖萌。

  【新智元导读】谷歌大脑、DeepMind和 Google X 的研究员正在设计一种新的实验,探讨使用多个机器人共同学习通用技能的三种可行的方法:直接从经验中学习行动技巧、学习物体内部物理模型、通过人类协助学习技能。基本的思路是,让多个机器人分别学习,然后把学到的信息上传到服务器中,再共用服务器中的信息进行训练和调整。这种“集体主义”式的学习方法,不仅能将学习时间大大缩短,还能对任务的多样性进行扩充。

  从经验中进行学习很可能是让机器人处理复杂的现实世界问题的一个关键,这些问题包括帮助老人做家务,协助他们的日常活动,再到学校和医院里的工作,以及某些过于危险或人类不愿意去做的任务。但是,如果每一个机器人只能通过自身的经验来掌握所有的这些任务技巧,那么要掌握足够多的有用技能所需要花的时间就太长了。我们能不能通过让多个机器人合作性的相互学习来克服这一缺陷呢?

  虽然机器学习算法在自然语言处理和语音识别上已经有了巨大的进步,但是,抽象的高水平推理,即让人们可以用词语对复杂的概念进行沟通,对机器来说依然是一个难以覆盖到的领域。但是,机器人可以通过网络,有时候称为云机器人,同步地把经验传输给彼此,也就是让机器人可以相互学习的能力。

  虽然只能在低级别的技能中做到,但这确实是事实。人和动物在适应性的运动控制上做得很好,运动控制包含了一个封闭的协调反馈回路,涉及感知、反应、肌肉等。现实世界中,机器人在这些基本的技巧上依然很难做好,因为环境的多变和复杂性要求有精确的行为,需要保证不会被干扰项轻易地愚弄。如果我们让机器人把自身经验传递给彼此,那么它们能学会在感知现实环境的情况下,通过紧密协作来执行动态任务吗?

  此前,我们曾写过博客,介绍多个机器人 如何能把各自经验汇总,学习抓取物体任务。今天,我们要讨论的是一个新的实验——通过多机器人合作来完成通用目的技能学习的三个可能方法:直接从经验中学习行动技巧、学习物体内部物理模型、通过人类协助学习技能。在这三个例子中,多个机器人分享彼此的经验,搭建了一个通用的技能模型。机器人们学习的这些技能依然是相对简单的,比如推物体或者开门。但是,通过合作来更快速高效的学习这些技能,机器人未来可能会掌握更加丰富的行为指令集,最终会让它们在人类的日常生活中起到大的作用。

  用无模型的增强学习从原始经验中进行学习

  也许,让机器人彼此学习的一个最简单的方法就是把所有关于成功和失败的经验信息都汇总到一起。人类和动物通过直接试错进行学习,积累技巧。之所以称之为“无模型”,是因为并没有形成关于环境的明确模型,在这种“无模型”的学习中,它们通过即刻展示的行为发现变化,进而增强和探索可以得到更大回馈的变化。通过与深度神经网络的结合,“无模型”的算法最近已经被证明可以取得惊人的效果,在Atari 游戏系统和围棋对弈中,也取得了关键性的成功。拥有多个机器人让我们可以使用分享的经验来进行实验,以加速现实世界中这一类型的直接学习。

  在实验中,我们给机器人的任务是移动手臂,触碰目标位置,或者接触并开门。每一个机器人都拥有一个复制版的神经网络,让它可以对特定情况下特定的任务的价值进行评估。通过在这一网络中进行搜索,机器人能快速地决定哪一种行动才是值得去做的。当一个机器人开始行动时,我们会在它所选择的行动上增加噪音,这样,行为的结果有时候会比此前的观察更好一些, 有时候又会更差一些。这能让每一个机器人都可以探索处理某一任务的不同方法。关于机器人所采取的行动、它们的行为以及最终结果的记录,最终都会被发送到一个中央处理器中。服务器会搜集所有机器人的信息,并循环使用,改进用于评估不同状态和行动的神经网络。我们采用的这种“无模型”的算法会对好的和坏的经验都进行评估,并把结果运用到新的网络中,新的网络将能更好地理解行动和成功之间的关系。这样,在每一个常规的间隔中,每一个机器人都会从服务器上获得升级后的神经网络的复制版本,然后开始使用这些新的神经网络中的信息指导行动。考虑到这些设计版的神经网络在评估现实世界中的真实行动会做得更好,机器人自身也会获得更好的结果。这种良性循环在任务的不断改进中得到重复。在下面图片中,一个机器人正在试着完成开门任务。

  

码报:【j2开奖】视频 | 谷歌最新研究曝光: 合作式增强学习让机器人掌握通用技能

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容