本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读(11)

时间:2017-05-25 11:35来源:香港现场开奖 作者:本港台直播 点击:
另一个差异是平滑性。Samuel的多项式算法很流畅,因为它使用的是自然特征。但是特征表学习中的过度量化使会这种算法失去平滑性。平滑性的缺失会导致

  另一个差异是平滑性。Samuel的多项式算法很流畅,因为它使用的是自然特征。但是特征表学习中的过度量化使会这种算法失去平滑性。平滑性的缺失会导致这样一种结果:搜索空间中某一特征只要发生微小变化,评价就会发生明显改变。相比之下,贝叶斯学习学习的是一个平滑函数,这个函数对某一位置属于获胜类别和失败类别的可能性进行估量。

  Samuel的这两个算法还存在一个严重的问题:它们都需要进行额外的调校和监督。而贝叶斯学习则是完全自动的。由于对特征组合的调校非常不直观,因此自动化是一个非常必要的属性。而且,贝叶斯学习在假定多元正态分布的情况下可提供最优的正交组合。[4]

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读

获胜位置

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读

失败位置

  图5.获胜位置和失败位置的每对特征间的相互关系作为游戏阶段的函数

  Samuel的过程的另一个问题在于它们没有充分说明游戏的各个阶段。

  我们在图6中估量了每个特征的效用,该图显示,如果孤立地使用特征,那么每个特征的训练因子都被正确地归类为获胜位置或失败位置。显然,游戏的阶段会对特征的相对重要性造成影响。图5显示的相互关系的改变进一步证明了对游戏阶段进行精确却缓慢变化的估量的必要性,我们通过为每个阶段生成一个判别函数来进行这种估量。注意,我们可以通过修改

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读

  图6.经每个孤立使用的特征正确分类的训练位置所占的比例作为游戏阶段函数

  Samuel的学习过程生成了很多学习阶段;但是,这会增加早已非常庞大的训练位置数(180000)。

  Samuel的学习过程和我们的学习过程有个有趣的差异:学习的概念不同。Samuel的多项式学习试图通过惩罚导致失误决策的特征来区分好坏特征,在这种学习中,特征的好坏由它与深层搜索是否一致决定。特征表学习试图区分强位和弱位,在这种学习中,强位来自于专家所走的棋步,弱位来自于专家未选择的合规棋步。贝叶斯学习试图学习获胜位置和失败位置的概念,在这种学习中,获胜位置指的是达成最终胜利的位置,失败位置则指的是那些造成最终失败的位置。由于任何游戏的目的都是赢,因此模拟获胜位置对比失败位置要比构建好特征对比坏特征更合理。

  最后,三种方法的训练方法都各不相同。Samuel的多项式学习算法使用自我模拟生成训练数据。由于这是一个渐进式爬山算法的过程,该算法可能很可能会聚集到局部最大值。特征表学习则更加全面;但是,源自棋谱棋步的训练会受到限制的影响。首先,虽然专家的棋步通常提供好的正面范例,但是使用专家未选择的所有棋步作为负面范例的做法具有误导性。其次,通过学习来模拟专家的棋步,这样评价函数在理论上则不可能会超过专家的下棋水平(不借助搜索)。在本研究中,获胜位置和失败位置的使用提供了很好的正面范例和反面范例。

  而且,通过构建“达成胜利的棋步”(而不是“专家选择的棋步”),我们的评价在理论上就可以优于完成训练游戏的专家。

  5.2.贝叶斯学习的问题

5.2.1.多元正态分布假设

  贝叶斯学习的简单和高明在很大程度上是由于对数据潜在分布的假设。为了使我们的算法能正常运作,特征的分布必须为多元正态分布。为了验证这个假设,我们在图7中显示了3000个训练游戏中的四个特征的分布。粗曲线是获胜位置的分布,细曲线是失败位置的分布。这些位置取自于棋盘上有24个格子的位置。这些数字清楚地表明,这个假设是合理的。

5.2.2.标记的准确性

  另外还有这样一个问题,获胜/失败位置的标记过程可能不是很准确,标记错误很可能会给贝叶斯学习的性能造成消极影响。由于BILL的终局求解能力,有15个格子的位置一向都很完美,但是更早的位置可能会出现错误。但是,我们认为我们的标记方法是合理的,因为:

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读

图7.所使用的四个特征的获胜/失败位置分布

  (1) 许多模式分类过程使用手动标记的训练数据,由于人为误差或偏向,这些数据未必准确。

  (2) 由于BILL 2.0下黑白棋的水平可能胜过任何专家,这是可用的最好的标记方法。

  (3) 前20步随机棋步应该会生成许多不是很接近的位置,在这20步内领先的一方几乎总能获胜,因为BILL的下棋水平非常高。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容