•Russell Kaplan,Christopher Sauer和Alexander Sosa举办的一个非常有创意的斯坦福学生项目说明了强化学习的挑战之一,并提出了一个聪明的解决方案。正如你在DeepMind论文中看到的那样,算法未能学习如何去玩Montezuma’s Revenge。其原因是什么呢?正如斯坦福大学生所描述的那样,atv,“在稀缺回报函数的环境中,强化学习agent仍然在努力学习”。当你没有得到足够的“hotter”或者“colder”的提示时,你是很难找到隐藏的“钥匙”的。斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示,例如“climb down the ladder”或“get the key”,从而使该系统成为OpenAI gym中的最高评分算法。可以点击算法视频观看算法演示。 •观看这个关于强化学习的算法,好好学习,然后像一个大boss一样去玩超级马里奥吧。 理查德•萨顿和安德鲁•巴托写了关于强化学习的书。你也可以点击查看第二版草稿。 作者:Frank Chen 来源:https://hackernoon.com 最初发表于:Andreessen Horowitz’s AI Playbook (责任编辑:本港台直播) |