本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】阿尔法狗是怎么用机器学习做决策的(2)

时间:2016-09-18 22:06来源:报码现场 作者:118KJ 点击:
假设电脑现在的状态是s(t), 那么你随便扔个筛子走一步,然后电脑模拟的对手也扔个筛子随便走一步,这样下下去, 总有一刻会分出胜负, 这个时候

  假设电脑现在的状态是s(t), 那么你随便扔个筛子走一步,然后电脑模拟的对手也扔个筛子随便走一步,这样下下去, 总有一刻会分出胜负, 这个时候你回顾胜利和失败的人的历史走棋轨迹,赢的走法在其整个决策树上的每个状态(枝叶)都加一分, 输的走法每一步位置都减一分, 这个分数会影响下一次抽样的概率 , 使得容易赢的步子会有更大概率取到。 最终依次往复电脑和电脑玩无数次后, 就会选择出特别容易赢的策略。 这个过程酷似进化选择算法, 就是让那些有优势的选择有更高的繁殖子代概率, 从而最终胜出,体现了生物和环境的博弈

  注:这里提个小问题, 马尔科夫决策过程威力巨大, 而在现实决策里,你要去哪个大学上学,你要选哪个股票,都的策略选择都很难只看当下,这个框架还能用多少呢?

  以蒙特卡洛树为代表的强化学习在围棋这样走法的可能性超多的情况下,只能部分的减少搜索空间,使得电脑达到一个高级业余选手的水平, 而如果我们要进一步减少搜索空间 ,需要怎么办呢? 此时我们可以再回去想刚提到的人类减少搜索空间的一个重要方法是学习高手经验, 对,没错,背棋谱,看的多了,就有一种犀利的直觉走出一个妙招。转化为数学语言, 就是通过看棋谱,取得一个在某种局面下任意策略和最终赢率的对应关系,即使这个局面你从未见过。

  注: 此处小心我们经常会觉得直觉这个东西好像是天上掉下来的异禀,实则恰相反。直觉才是最需要学习的。

  让机器来做就是有监督学习的回归算法, 你要提取棋局的特征,算出对应每一个走法出现的概率P(a(t)|s(t)),然而围棋棋局的特征实在太复杂,如果你来一个线性回归或KNN,一定会死的很惨。 这时候我们的深度学习开始派上用场。它可以自发的学习事物的表征。

  

报码:【j2开奖】阿尔法狗是怎么用机器学习做决策的

  图,通过梯度回传训练网络连接

  

  机器学习训练的目标即使得数据被观测到的概率最大,所谓Maximum Likelihood,对于神经网络,就是网络连接参数的调整。

  深度学习的过程正如同我们见识一个东西多了,自发的开始具有举一反三能力,因之可以称为把直觉加入了策略选择,这时候你可以通过有限的经验把握无限。 在训练过程中,Alphago不停的根据现有的局面预测专家可能会出的招, 在经过三千万组数据的训练后,深度学习可以达到55.7%的预测率,这个概率说明人类的意图也并不难被猜中,也是为什么人会说和Alphago下棋如同和无数高手过招。 当然,这还不是训练的终结, 此处的神经网络只在描摹高手的动作, 而之后我们要让能够赢,好比在实践中理解和优化高手的招术,这就是训练的第二步,用强化学习方法, 训练网络连接系数, 具体方法即让现有的策略网络和随机选出一个之前的策略网络进行左右互搏,然后把胜负结果回传到每一步的策略上,进行梯度训练。经过这个过程, 策略网络可以秒掉一些中级爱好者水平的算法和自己之前在描摹各种高手时候的状态。

  

报码:【j2开奖】阿尔法狗是怎么用机器学习做决策的

  图:策略网络的思维,计算每种走法出现的概率

  

报码:【j2开奖】阿尔法狗是怎么用机器学习做决策的

  训练的最后一步是估值网络,说说这里估值网络是干什么的, 首先,在一个强化学习框架下, 你需要知道每个行为所对应的确定回报,难点在于围棋下完棋才有确定回报,想想围棋步骤中的无限多可能性及得到结果可能的步数就令人生畏,此处深度学习算法的作用正是不需要走完就巧妙的估计出这一步对应的赢利期望, 过程需要用一个深度网络通过强化学习的框架来进行。估值网络的本质在于建立现有行为和长远收益的联系。 有人称为看趋势和全局观。 训练这样一个计算回报的网络作用请往下看。

  公式: 训练要解决的问题, 求得状态S下采取策略p最终收益的期望

  

报码:【j2开奖】阿尔法狗是怎么用机器学习做决策的

  图: 估值网络的效果图,数字即回报

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容