然后我们来看一看其他的经典游戏,例如扑克。我们能够使用深度强化学习的方法在多代理的游戏中找到纳什均衡吗?纳什均衡就像多代理决策问题中的解决方案。在这个均衡下,每个代理都满足它们的策略,没人愿意偏离当前的策略。 因此,如果我们找到了纳什均衡,我们就解决了这个小问题。很多研究都在关注如何在更加庞大、有趣的博弈游戏中实现这种均衡。 这里的思想是,我们首先学习一个价值 Q 网络,然后学习一个策略网络,然后挑选一些最佳相应和平均最佳相应之间的动作。 代理在游戏中进行虚拟自我对抗 (FSP)。 下面的幻灯片阐述了在德州扑克进行 FSP 的结果:随着迭代次数的增加,不同的算法都收敛了。 基于模型的深度强化学习 学习环境的模型 Demo:Atari 的生成模型 复杂的误差使规划富有挑战 传递模型中的误差会在轨迹上复合 规划的轨迹会与执行的轨迹有所不同 在长时间的不正常轨迹结束时,奖励是完全错误的 学习一个模型,即如何用深度学习完成基于模型的强化学习,并不是这个问题的难点。我们知道了如何规定学习模型的问题。事实上这不过是一个监督学习的问题罢了「如果你想预测:假设我采取了这个动作之后,环境会变成什么样子」。在这次讲座中,他没有太多地谈论这个问题,他只是展示了一个来自密歇根大学的视频,演示你如何能够建立一个模型,以及建立这个模型有多困难。这是该视频的屏幕截图:左侧是预测,右侧是真实情况。但是,这是很难实现的。 然而,如果我们有一个完美的模型呢?也就是说,游戏规则是已知的。是的,我们知道,AlphaGo 就是这样的。 Nature 上关于 AlphaGo 的论文:
AlphaGo 相关的资源: deepmind.com/research/alphago/ 为什么下围棋对于计算机而言是很困难的? 暴力搜索是很难处理的。 1. 搜索空间是巨大的 2. 对计算机而言,评价哪一个玩家占据上风,「几乎是不可能的」。但是在一些诸如象棋的游戏中,就比较容易判断了。 过去很多人都认为找到一个解决这个问题的好方法是不可能的。 DeepMind 建立了一个卷积神经网络(CNN),这个网络将每一个状态(只要由棋子落下)看作一幅图像。然后用卷积神经网络去构造两个不同的神经网络。 一个代表价值网络 另一个代表策略网络: 为了训练它,我们结合了监督学习和强化学习,共有三个步骤,如下所示: 经过每一步之后的表现:
价值网络和策略网络的效果:
总结 通用、稳定并且可拓展的强化学习现在是可能的 用深度网络去代表价值、策略和模型 在 Atari、Labyrinth、物理、扑克、围棋中取得了成功 使用一系列深度强化学习的范例 (责任编辑:本港台直播) |