本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【图】Master 就是 AlphaGo 升级版!60 连胜背后看专家怎么说(3)

时间:2017-01-06 02:12来源:118图库 作者:本港台直播 点击:
不过就在 51 场 连胜 之后,1 月 4 日,“Master”第 52 盘以和棋结束,“Master”的 51 连胜纪录就此终止。这场比赛中,“Master”挑战中国围棋职业选手陈耀

  不过就在 51 场连胜之后,1 月 4 日,“Master”第 52 盘以和棋结束,“Master”的 51 连胜纪录就此终止。这场比赛中,“Master”挑战中国围棋职业选手陈耀烨。 “Master”执黑棋、陈耀烨执白棋,30 秒 3 次快棋。不过陈耀烨出现了断线情况,30 秒没有落子,系统判定和棋。

  今日,“Master”出现以来最受瞩目的比赛在 Master 和聂卫平之间进行。年届 64 岁的中国棋圣和“Master”的比赛也是这个人工智能程序进行的第 54 局比赛。本局“Master”特意把比赛用时调整为每方 1 分钟一手,以示对聂卫平的尊敬。

  最终本局进行至手,执白的聂卫平以 7 目半的劣势落败。本局“Master”在右上角下出犀利的手段,吃掉了聂卫平一块棋由此确立优势,并保持到了最后。而随着棋圣聂卫平落败,“Master”将自己的不败纪录延续至 54 场,中日韩高手无一能在这次“快棋”对决中取胜。

  4 日晚,随着古力败下阵来,Master 对人类棋手获得了 60 场不败的纪录。

  AlphaGo 技术原理

  AlphaGo 从 3 月份至今,经过 10 个月的发展,已经有了非常长足的进步,不过要追溯其技术原理,最详细的还是 3 月份发布在 Nature 的封面论文:Mastering the game of Go with deep neural networks and tree search(透过深度神经网露和树状搜索,学会围棋游戏)。

  AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型透过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙地卡罗树状搜索演算法的级别(这种演算法模拟了上千种随机自己和自己下棋的结果) 。我们也引入了一种新搜索演算法,这种演算法将蒙地卡罗模拟和价值、策略网络结合起来。

  透过将 Value Networks、Policy Networks 与树状搜索结合起来,AlphaGo 达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI 也可以达到人类级别的表现!

  DeepMind 团队对围棋项目的介绍

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容