从定义开始和结束状态开始,接下来,定义所有可能的状态和相应的状态转移奖励和规则。最后,使用相同的方法你可以提供解决魔方问题的方案。 6.强化学习的研究现状 你已经意识到了魔方问题的复杂度比汉诺塔高了好几个倍,也明白每次可选择的操作数是怎么增长的。现在想想围棋游戏里面状态数和选择,行动起来吧!最近谷歌DeepMind创建了一个深度强化学习算法打败了李世石! 随着近来涌现的深度学习成功案例,焦点慢慢转向了应用深度学习解决强化学习问题。李世石被谷歌deepmind开发的深度强化学习算法开打败的新闻铺天盖地袭来。同样的突破也出现在视频游戏中,已经逼近甚至超出人类级别的准确性。研究仍然同等重要,不管是行业还是学术界的翘楚都在共同完成这个构建更好的自我学习机器的目标。 图为李世石与AlphaGo参与围棋人机大战中 深度学习应用的主要领域如下: ● 游戏原理及多智能体交互 ● 机器人学 ● 计算机网络 ● 车辆导航 ● 医药学 ● 行业物流 随着近期将深度学习应用于强化学习的热潮,毫无疑问还有许多未探索的事在等待着更多的突破来临! 其中一条最近的新闻: 7.其他资源 我希望现在你已经对强化学习怎么运行有了一个深入的了解。列举了一些可以帮你探索更多有关强化学习的其他资源: 强化学习视频(https://www.analyticsvidhya.com/blog/2016/12/21-deep-learning-videos-tutorials-courses-on-youtube-from-2016/) 介绍强化学习的书籍(https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf) Github上强化学习的优秀资源(https://github.com/aikorea/awesome-rl) David Silver强化学习课程(https://www.youtube.com/playlist?list=PLV_1KI9mrSpGFoaxoL9BCZeen_s987Yxb) 结束语 我希望你们能喜欢阅读这篇文章,如果你们有任何疑虑和问题,请在下面提出。如果你们有强化学习的工作经验请在下面分享出来。通过这篇文章我希望能提供给你们一 个强化学习的概况,以及算法如何实际实施的,希望对你们有用。 原文链接: https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/?winzoom=1 (责任编辑:本港台直播) |