本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读(9)

时间:2017-05-25 11:35来源:香港现场开奖 作者:本港台直播 点击:
棋盘位置的评价涉及特征的计算,以及将特征向量x整合到最终评价中。在第3.1.2节中,我们已知“获胜”和“失败”类别的两个判别函数分别为: 评价函

  棋盘位置的评价涉及特征的计算,以及将特征向量x整合到最终评价中。在第3.1.2节中,我们已知“获胜”和“失败”类别的两个判别函数分别为:

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读

  评价函数应该估量棋盘位置属于获胜类别的概率,或者:

  我们将(9)和(10) 代入到(11)中。消除常数。另外,我们假设“获胜”和“失败”类别的先验概率相等,并消除log P(Win) 和 log P(Loss)。这就得出了最终的评价函数:

  

  是一个用于对数量进行归一化的常数,如果所有评价使用相同的常数,那么就不一定要有这个常数。但是如上所述,须为游戏的每个阶段估计不同的参数集;因此,消去这个常数项会导致搜索树的不同层级有不同的评价范围。这样的话会很不方便,因为我们的搜索中的某些界限要求一个一致的范围[7]。因此,保留这个常数项。而且,通过保留这个常数项,当程序报告它的评价时,我们也许可以直接从g(x)中计算出获胜的概率:

  

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读

  让我们总结一下我们的评价过程。在搜索的每个终端节点上,算法计算出四个特征并将它们整合到g(x)中,g(x)如图(12)所示。由于协方差矩阵用于确定最终函数,因此不必手动对特征进行归一化。实际上,乘以逆协方差矩阵就是归一化过程。在完成每次迭代加深的搜索后,g(x)都被转化为 ,如图(13)所示,是一个对人类而言更有意义的衡量标准。

  4. 结果

  在本部分中,我们将阐述分别用两个版本的黑白棋程序(BILL)进行的两个试验。第一个版本是BILL 2.0,这个程序线性组合四个特征,并且其游戏水平为世界冠军级别。另一个版本BILL 3.0使用相同的四个特征,但使用上一部分所描述的贝叶斯学习组合这些特征。

  评价和比较博弈程序的方法有很多种,包括:

  (1) 让程序相互对弈;

  (2) 给程序设定有已知解决方法的问题;

  (3) 让程序与人类专家对弈。我们将介绍分别使用这三种方法的评价。

  4.1. BILL 2.0对抗BILL 3.0

  比较两个程序的最明显的方法就是安排这两个程序相互对弈。我们在下列条件下安排BILL 2.0对战BILL 3.0:棋盘上20个棋子所走的100个几乎均衡的位置选自BILL 2.0的开局书。BILL 2.0在每个位置上与BILL 3.0对弈两次,一次作为黑棋一次作为白棋。每一方都在25分钟内走完所有棋步。BILL 3.0在200局比赛中共赢了139局,平6局,败55局。平均分数为36.95到27.05。

  结果表明,贝叶斯学习明显优于调校后的线性评价函数。实际差异可能甚至更大,因为尽管所有初始位置都接近,但是某一种颜色可能注定取得胜利。这样,每个程序在用那种颜色的棋子进行比赛时都会取得胜利。我们还将贝叶斯学习与使用回归生成的线性函数作对比。正如预期的那样,结果显示贝叶斯非线性更好,尽管双方差距很小。

  为了探明贝叶斯学习究竟起了多少效用,我们使用不同版本的BILL 2.0从相同的初始位置起开始相互对弈,各版本的程序搜索的深度不同。结果如表2所示。由于上述条件使BILL搜索6-8层,如果BILL 2.0多搜索两层,那么它的水平就会与BILL 3.0大概相当。黑白棋中的有效分支因子在3.4和3.7之间,这意味着如果BILL 2.0的时间是BILL 3.0的13倍,那么的水平就会和BILL 3.0一样好。13这个因子使非线性函数损失了更多的性能。每个版本的程序都在相同的规定时间走完自己所有

  表2:两个版本的BILL对弈的结果

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读

  的棋步,通常为25分钟。由于非线性版本的程序拥有更复杂的特征组合过程,因此它搜索的节点较少,但是它相较于其他版本仍然多出2层(或13因子)的性能。如果每个版本都搜索相同数量的节点,而不是使用相同的时间,那么非线性版本的性能将会获得更大的提升。

  4.2.终局问题

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容