learning入门：教电脑玩“抓住芝士”小游戏(2)_本港台直播_J2开奖直播

如果不是第一次运行，那么我们就对游戏进行评估，因为从上一次游戏的结果中就能得到Q-learning算法所需要的输入——奖励r。如果游戏的得分增加了，那么得到的奖励为1；如果得分减少了，得到的奖励为-1；得分不变奖励为0.（步骤2c）

接着我们把结果状态设置为游戏的当前状态（在我们的例子中即为移动玩家），然后使用下式更新我们的Q值表格。（步骤2d）

learning入门：教电脑玩“抓住芝士”小游戏

在上述最后一步更新过Q值表格后，我们为下一次运行保留之前的分数和状态。

然后我们依据阈值e，从随机或者基于Q值表格选择出一个行为（步骤2a），函数返回这个行为（步骤2b）。

learning入门：教电脑玩“抓住芝士”小游戏

这就完成了我们Q-learning算法的实现，你可以从上文中的github地址里看到有关算法和游戏的所有源码。

算法的运行

我们让Q-learning玩家进行了10次游戏，结果如下：

learning入门：教电脑玩“抓住芝士”小游戏

你可以看出在第1次游戏中，玩家还在不断尝试，包括漫无目的地左右移动。这是由于Q值表格的随机初始化导致的。然而当玩家得到一些分数、落入一些陷阱后，它很快就学会了如何避免陷阱，径直走向芝士。

在第7次和第8次游戏运行中，玩家事实上采取了最优的获胜方案，在37步移动中得到了5次芝士。

然后在第9次和第10次游戏中，获胜经历的总步数又变成了39步。这是由阈值e影响的，它的存在会使得算法有时候会采取随机移动，而不是采用优化的移动。这种随机性的设置会非常有必要的，它能够保证算法能够正确地探索整个游戏，而不被局域最优值卡住。

接下来…

这篇推送展示了如何将使用Q-learning来教会AI去玩“抓住芝士”这个简单的游戏。你可以想象，随着游戏复杂的提升，Q制表格的大小将会呈现爆炸式增长。一种避免这种情况发生的方法就是把Q值表格替换为一个神经网络。

DeepMind的研究者们探索了这种方法，发表了相关的论文。这这篇文章中，他们成功使用了神经网络通过Q-learning来训练AI去玩Atari出品的2600种游戏。

论文：

Playing Atari with Deep Reinforcement Learning

地址：

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

— 完—

learning入门：教电脑玩“抓住芝士”小游戏

(责任编辑：本港台直播)