监督学习(supervised learning)v.s. 强化学习:在监督学习中,有一个外部“监督者”(supervisor)。“监督者”了解环境,并与智能体共享环境信息以完成任务。但这其中存在一些问题,智能体可以通过执行许多种不同子任务的组合来达到目标。所以创建一个“监督者””几乎是不切实际的。例如在象棋游戏中,有成千上万种走法。因此,创建一个可以下象棋的知识库是一个单调乏味的任务。在这样的问题中,从经验中学习更为可行。这可以说是强化学习和监督学习的主要区别。在监督学习和强化学习中,输入和输出之间都存在映射(mapping)。但在强化学习中,还存在对智能体进行反馈的奖励函数,这在监督学习中是不存在的。 无监督学习(unsupervised learning) v.s. 强化学习:在强化学习中,有一个从输入到输出的映射。这种映射在无监督学习中并不存在。在无监督学习中,主要任务是找到数据本身的规律而不是映射。例如,如果任务是向用户建议新闻文章,则无监督学习算法将查看该人先前读过的文章并向他们建议类似的文章。而强化学习算法将通过建议少量新闻文章给用户,从用户获得不断的反馈,然后构建一个关于人们喜欢哪些文章的“知识图”。 此外,还有第四种类型的机器学习方法,称为半监督学习(semi-supervised learning),其本质上是监督学习和无监督学习的结合(利用监督学习的标记信息,利用未标记数据的内在特征)。它类似于监督学习和半监督学习,不具有强化学习具备的反馈机制(奖赏函数)。(译者注:这里应该是原文作者的笔误,强化学习有映射,映射是每一个状态对应值函数。而无监督学习没有标记信息,可以说是没有映射的。我想这里作者想要表达的是半监督学习区别于强化学习的地方是半监督学习没有强化学习的反馈这个机制。) 3. 解决强化学习问题的基本框架 为了了解如何解决强化学习问题,我们将分析一个强化学习问题的经典例子––多摇臂老虎机问题。 首先,我们将去回答探索 v.s. 利用的根本问题,然后继续定义基本框架来解决强化学习的问题。 上图:赌场里的“老虎机”。 假设你有很多吐出随机奖金的老虎机(即投币式游戏机,见上图)。 现在你想尽可能快地从老虎机获得最多的奖金。你会怎么做? 一个幼稚的方法可能是只选择一个老虎机,并拉一整天的杠杆。听起来好无聊,但这种方法可能会给你赢点小钱。你也有可能会中大奖(几率接近0.00000 ... .1),但大多数时候你可能只是坐在老虎机面前亏钱。这种方法的正式定义是一种纯利用(pureexploitation)的方法。这是我们的最佳选择吗?答案是不。 让我们看看另一种方法。我们可以拉每个老虎机的杠杆,并向上帝祈祷,至少有一个会中奖。这是另一个幼稚的方法,能让你拉一整天的杠杆,但老虎机们只会给你不那么好的收获。正式地,这种方法也被正式定义为一种纯探索(pureexploration)的方法。 这两种方法都不是最优的方法。我们得在它们之间找到适当的平衡以获得最大的回报。这被称为强化学习的探索与利用困境。 首先,我们要正式定义强化学习问题的框架,然后列出可能的解决方法。 马尔可夫决策过程: 在强化学习中定义解法的数学框架叫做马尔可夫决策过程(Markov Decision Process)。 它被设计为: ● 一系列状态的集合(Set of states),atv,S ● 一系列行动的集合(Set of actions),A ● 奖励函数(Reward function),R ● 策略(Policy),π ● 价值(Valu),V (责任编辑:本港台直播) |