而今天的 AlphaGo 的算力需求更小,它不再是分布式运算,整个程序仅运行在一个单一的云服务器 TPU 上。这是 Google 去年在开发者大会上发布的用于人工智能计算的单处理器计算机,全称是 Tensor processing unit。 从计算机消耗的能耗来看,去年李世乭相当于面对 10 台计算机打比赛。而今年柯洁的比赛是货真价实的一比一对抗,AlphaGo 的程序性能提升了至少 10 倍。 6. 除了柯洁,这次还有两个人类群殴 AlphaGo 的比赛, 有什么意义? 这次的团队赛还分为两种:一种是人类组队对阵机器,第二种是,人和人工智能算法合作,对阵人类。 意义很明确:如果人工智能算法能够打败单个人类,那么用人类的集体智慧和写作文对应人工智能是否能赢?人+机器这样的组合,能不能产生更好的结果? 这样的比赛之前也有过。2005 年,Playchess.com 举行了一场“自由式”象棋大赛,参赛者可以任意和其他人或者电脑组队。通常情况下,象棋网站都会运用“反作弊”算法来防止参赛者用电脑程序作弊。 重赏之下,好几位特级大师都携多台电脑参加了比赛。一开始,结果不出预料。人和电脑组队,要远远胜过最强的电脑。“九头蛇”(Hydra)和“深蓝”一样,是一台专业象棋超级电脑,而面对棋力较强的人类选手和一台较弱的笔记本电脑的组合,它却败下阵来。人类的战略引导加上电脑精确的战术计算。 但更有意思的是,最后的赢家并不是“人+高配置电脑”的组合,而是两位美国业余选手和三台电脑的组合。 他们的技巧是通过干预和“教导”,让电脑们更深入地搜索可能的局面。这一策略不仅胜过了特级大师们对象棋的精深理解,也胜过了其它参赛者的超强计算能力。 “棋力较弱的人类+机器+优化的步骤”比强力的电脑本身技高一筹,也优于“棋力较强的人类+机器+较差的步骤”。 7. 李世乭在赛后怎么看待自己的失败? 李世乭在去年 6 月的夏季达沃斯论坛上说,赛前自己存在判断失误,低估了对手的水平: “当时我看了它和樊麾的比赛,之后我觉得 AlphaGo 应该不是我的对手,比较确信我会赢。但是没想到,深度学习在六个月期间有这么大的进步。” 他说人类和机器对弈的时候,人是处在不利地位的。AlphaGo 始终如一,没有情绪波动,甚至也不会意识到下到第几局、整个场面是什么情况。 “我再也不想和 AlphaGo 比赛了。”李世乭说。 AlphaGo 具体是什么?它背后的公司在干什么? 8. AlphaGo 到底是什么? AlphaGo 是一款围棋人工智能,Google 人工智能团队 DeepMind 创造了它。 DeepMind CEO 哈萨比斯今年 5 月 19 日接受 BBC 四台采访时表示,AlphaGo 是面向围棋这一“狭窄领域”的人工智能,简单说,虽然它能打败世界冠军,但 AlphaGo 也只能下棋。 9. AlphaGo 怎么学会下棋,提升棋艺的? 说起这个,“穷举”、“蒙特卡罗树算法”、“深度学习”等等一大堆术语经常出现,但没有这些基础也能看懂。 所谓 “深度学习”,是 AlphaGo 围棋训练的第一步,将人类棋谱输入计算机,学习人类的落子习惯。这种“识别”与人脸识别、图像分类等搜索技术类似。 第一步:把棋盘分拆成小块,输入数据。 AlphaGo 会把输入系统的人类棋谱的每一步进行分拆,棋盘上每个落子以及随后的应对落子算作一个样本,AlphaGo 从这些人类棋局中分解出了三千多万个样本。 这些样本集合在一起,能够识别出每个特定的落子之后,哪一种应对方法的概率最高,这个最高的概率其实就是人类棋手最喜欢的应对方法。 虽然说围棋“千古无同局”,但是局部来看还是有很多相似的模式反复出现,AlphaGo 就学会了这些最受欢迎的下法。
AlphaGo 的蒙特卡罗树搜索。图片来自 Nature 第二步:乱下棋,不过比纯粹乱下要好一点。 AlphaGo 的思考结合了蒙特卡罗树搜索。 假设一个从来都没下过围棋的人,用了分身术分成两个人开始在棋盘上乱下,最终这盘棋也会分出个胜负。 第二盘,上一盘赢的那个分身不再完全是乱下了,开始使用赢的那一盘中的一些对应,第三盘棋,第二盘赢的那个分身开始使用第一盘和第二盘中的对应。当第 N 盘棋下完之后,这个始终赢棋的分身就会获得最有可能获胜的落子方法。 以上这 N 盘棋就是一步使用蒙特卡罗树搜索的思考过程,思考结束后的下一个落子,就是被是推演过次数最多,获胜概率最高的那一步。 AlphaGo 团队还改进了以上这种传统的蒙特卡罗树搜索算法。 (责任编辑:本港台直播) |