本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【组图】从强化学习基本概念到Q学习的实现,打造自己的迷宫智能体

时间:2017-04-04 19:22来源:118图库 作者:www.wzatv.cc 点击:
近年以来,强化学习在人工智能所充当的角色越来越重要了,很多研究机构和大学都将强化学习与深度学习相结合打造高性能的系统。因此,本文注重描述强化学习的基本概念与实现

近年以来,强化学习在人工智能所充当的角色越来越重要了,很多研究机构和大学都将强化学习与深度学习相结合打造高性能的系统。因此,本文注重描述强化学习的基本概念实现,希望能为读者介绍这一机器学习分支的巨大魅力。

强化学习其实也是机器学习的一个分支,但是它与我们常见监督学习和无监督学习又不太一样。强化学习旨在选择最优决策,它讲究在一系列的情景之下,通过多步恰当的决策来达到一个目标,是一种序列多步决策的问题。该学习算法能帮助我们公式化表达生物体以励为动机(reward-motivated)的行为。比如说,让一个孩子坐下来安静地为考试而复习是十分困难的,但如果你在他每次学完一章时励一块巧克力,那么他就会明白只有保持学习才能获得奖励,因此也就有动力复习备考。而现在,如果这个孩子在备考时没有明确的方法,他可能会花大量时间学习一个章节而不能及时完成课程大纲。所以我们需要小孩有效率地学,因此如果小孩在一小时内完成某章节,那么就奖励大块巧克力,而超过 1 小时那就只奖励小块巧克力。现在他不仅会学习,同时大脑会思考设计出更快完成章节学习的方法。

在这个例子中,孩子就是代表着训练实体(Agent :与环境交互的对象)。奖励系统和考试就代表着环境(Environment)。而章节就可以类比为强化学习的状态(States)。所以孩子们就需要决定哪些章节更重要(即计算每一个章节的值),这也就是价值函数(Value-Function)所做的事。并且小孩每次从一个状态到另一个状态就能收到奖励,而他随时间完成章节的方式就是策略(Policy)。

强化学习和其他机器学习范式有什么不同:

没有大量标注数据进行监督,所以也就不能由样本数据告诉系统什么是最可能的动作,训练主体只能从每一步动作得出奖励。因此系统是不能立即得到标记的,而只能得到一个反馈,也可以说强化学习是一种标记延迟的监督学习。

时间序列的重要性,强化学习不像其他接受随机输入的学习方法,其更注重序列型数据,并且下一步的输入经常依赖于前一状态的输入。

延迟奖励的概念,系统可能不会在每步动作上都获得奖励,而只有当完成整个任务时才会获得奖励。

训练实体的动作影响下一个输入。如你可以选择向左走或向右走,那么当选择的方向不同时,下一个时间步的输入也会不同。即选择不同的动作进入不同的状态后,当前可选的动作又不一样。

总的来说,强化学习的目标就是要寻找一个能使得我们获得最大累积奖赏的策略。因此,强化学习实际上和我们人类与环境的交互方式类似,是一套非常通用的框架,可以用来解决各种各样的人工智能的问题。

  

【组图】从强化学习基本概念到Q学习的实现,打造自己的迷宫智能体

如上所示,在任何时间步(t),训练实体会得到一个环境的观察值(实例)。然后它会从所有可行动作中采取一种,并获得环境的奖励和下一个观察值。所以我们需要为训练实体提供算法,其所作出的决策应该是以最大化提升结束时的全部奖励为目的。

历史与状态

历史(History)是描述在环境和训练实体之间发生的所有事件的变量集合。

  

训练实体必须将历史映射到一个确切的动作中。对于环境,其必须将历史映射到需要发送的下一组观察值。因此,训练实体必须持续保持并储存大量的信息,这将占用大量的储存空间和处理时间。

所以,我们想创建历史的抽象表征,它可以储存足够的信息以便我们可以选择下一步动作,这也就是状态的概念。所以基本上系统的输出就取决于我们怎样定义状态。

在上式中,S 表征状态、f 表征一种能对时间步「t」的历史求和的函数。

上述表达式中,前一个代表训练实体的内部表征,其可以对历史求和并允许在以后采取动作。而后一个代表环境的内部表征,其允许发送下一个观察值。

马尔可夫状态(Markov State)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容