问耕 编译整理 量子位 报道 | 公众号 QbitAI
斯坦福大学计算机科学系的三位学者,在近日发表的论文中,atv,介绍了一个打Atari游戏的深度强化学习agent,不同之处是,这个agent听从自然语言的指导。 人类的学习,不是处在真空隔离、毫无互动的状态中,相反我们生活在一个复杂的因果世界。在人类的学习中,会得到来自他人的自然语言指导。 基于上述想法,斯坦福的三位学者想要探索能够接受自然语言指令的人工智能agent,而他们选择的试验场景还是Atari游戏世界。
整个过程分为两个阶段。 第一阶段,agent学习英语指令的意义,以及在游戏中的映射关系。第二阶段,agent基于已经学会理解的指令开始探索环境,并且学习需要什么操作来满足给定的指令。 这篇论文表示,他们训练出来的agent,表现优于Deep-Q Networks(DQN)和A3C训练出来的agent,也超过OpenAI Gym上的最佳agent。 他们所使用的游戏,是Atari 2600中难度很高的一款:蒙特祖玛的复仇。
所有详细的内容,请直接查看斯坦福论文。获取论文地址,请在量子位微信公众号(ID:QbitAI)对话界面,回复:“复仇”两个字即可。 今天AI界还有哪些事值得关注? 在量子位(QbitAI)公众号会话界面回复“ 今天”,看我们全网搜罗的AI行业和研究动态。笔芯?~ 另外,欢迎加量子位小助手的微信: qbitbot,atv直播,如果你研究或者从事AI领域,小助手会把你带入量子位的交流群里。 追踪人工智能领域最劲内容 (责任编辑:本港台直播) |