本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】跨越30年时空:李开复经典AI论文重读(5)

时间:2017-05-25 11:35来源:香港现场开奖 作者:本港台直播 点击:
Alpha和Beta原本是完全相同的,Alpha不断提高自己的权重。在每场游戏结束后,如果Alpha打败了Beta,那么就假设Alpha更好,Beta采用Alpha的评价函数。相反,如

  Alpha和Beta原本是完全相同的,Alpha不断提高自己的权重。在每场游戏结束后,如果Alpha打败了Beta,那么就假设Alpha更好,Beta采用Alpha的评价函数。相反,如果Alpha在某三场游戏中都败给了Beta,那么就假设Alpha出现了错误,然后将它首项的系数设置为0,使它恢复正常。而且,如果“Alpha的学习过程明显运行不正常”,则需通过手动干预来使它恢复先前状态。

  当Alpha在多场游戏中连续战胜Beta时,这个学习算法得出的评价函数似乎趋于稳定。最终程序试玩西洋跳棋游戏的表现出优于平均水平。这个学习过程是机器学习的早期范例之一。但是,它的正确性是以几个错误假设为依据的。

  这些假设中的第一个就是:好的评价函数可以定义为独立特征的线性组合。这个假设是不可靠的,而且在其中显得尤其错误,因为他有目的性地收集多余特征。例如,如果Samuel的学习过程考虑了两个完全相同的特征,那么就会给定这两个特征相同的权重,这会导致特征值的高估。而且,线性评价函数无法采集特征间的关系。通过重复Samuel的试验,Griffith [5]证明,通过一个极其简单的启发式棋步排序过程可以提升性能。

  第二个假设是:当搜索和静态评价不一致时,那么静态评价一定出现了错误。虽然深度搜索一般比浅搜索更加准确,但是这种假设在几种情况下会不成立。如果某个位置出现问题,那么可能只有通过向前搜索若干层才能发现这个问题。在这种情况下,则应容许静态评价维持错误状态,因为通常我们无法将这种向前搜索的知识编到静态评价中。而且,搜索可能会受到“地平线效应”(Horizon Effect) [2]的影响,导致生成不准确的评价。

  第三个假设是:如果发现评价函数过度乐观,则假设任何积极成分都出现错误。这明显是错误的,因为在大多数位置上,每位玩家都在某些特征上领先对手,但是却在其他特征上落后于对手。错误的评价可能是由消极成分导致的,但是这些成分并不足够消极。仅仅检查记号是不够的。

  最后,这个过程假设:如果玩家A战胜玩家B,一定是因为玩家A的评价函数优于玩家B。这个假设可能对于专业玩家而言是合理的,但是当新手程序互相对抗时,获胜的原因可能是:(1)更加优秀的评价函数;(2)运气(当两个玩家都不理解局势时);或者(3)对手失误。由于Samuel的程序的游戏水平相当于新手,那么它获胜的原因通常是因为运气或者对手的失误,从而导致错误的信度分配。由于多项式学习涉及爬山法(hill-climbing),所以信度错误分配的问题尤为严重。

2.2.2.通过棋谱走法(book moves)进行特征表学习

  Samuel认识到了这些问题,因此他设计了另一个学习过程,这个过程纠正了大部分问题[13]。为了处理特征间的非线性相互作用,他引入了特征表;为了处理自我模拟中的错误假设,他使用了棋谱走法。

  特征表是非线性组合特征的多量纲表。每个量纲代表某种特征。在评价某一棋盘局势时,每个特征的值都用来将索引编入特征表中,对应这个索引的单元格包含评价。这个方法最明显的问题在于表会变得非常大。Samuel通过使用分层结构解决了这个问题,并且将特征分为四个一组的集合。

  仅考虑内部集合间的相互作用。然后每个集合从索引单元格中生成一个数值,这个单元格的索引由四个特征值创建而成。下个更高的层级中的表使用这些数值,就好像它们是特征一样。共有四级。但是这样仍然会生成非常大的特征表,因此Samuel对特征值进行了量化。在每个最低层级的特征表中,其中三个特征的数值限制在(-1,0,1)间,剩下的那个特征的数值则限制在(- 2 , - 1 , 0 , 1 , 2)间。

  这就得出了图1中的最终结构。这个结构包含883个单元格,这对于存储和训练来说都是合理的。

  从棋谱走法开始训练这些单元格。我们将高手下棋所用的棋局输入到程序中。目的是使特征表学习模仿高手下棋。记下与高手所选走法的特征组合相一致的单元格的数量(用A表示),以及与高手所未选的合理走法的特征组合相一致的单元格的数量(用D表示)。实际的单元格数值通过计算(A- D)/(A + D)进行周期性更新,我们用这个数值衡量单元格遵从棋谱走法的程度。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容