登顶世界第一! 相比其他AI,AlphaGo究竟有何不同?

世界职业围棋排名网站GoRatings最新排名显示,连续24个月排名世界第一的中国棋手柯洁被谷歌人工智能机器人AlphaGo反超。截止目前,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。

如上图所示,目前Google Deepmind AlphaGo以3611分排名世界第一,柯洁以3608分排名世界第二,而之前与AlphaGo进行“人机大战”以1:4告负的韩国棋手李世石以3557排名第四。

按照Goratings世界围棋排名的规则,如果一名新加入的棋手只赢不输的话,是不能被算入正式排名的。而此前AlphaGo正好输了李世石一盘,因此给了AlphaGo入围排名榜单的机会,此前一直排名世界第二。另外,Goratings的规则要求之前有过交手的双方,如果对手的积分发生改变,则自身积分也会相应调整。AlphaGo此前以4胜1负战胜李世石,因此只要李世石的积分提升,AlphaGo也会跟着提升。而柯洁的排名之所以下降是因为近日在金立杯两岸世界冠军争霸赛表现不佳,胜周俊勋,负时越和唐韦星,这才给了AlphaGo称为世界第一的机会。

至此,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。这让我们不由得想,到底是什么使得AlphaGo如此不同,能在所有的围棋AI中拔得头筹,甚至打败人类登顶世界第一?

在刚刚过去的IJCAI2016(第25届国际人工智能联合会议)学术大会中,谷歌 DeepMind 研究员、AlphaGo幕后英雄之一David Sliver 发表了题为“使用深度神经网络和树搜索来精通围棋游戏(Mastering the Game of Go with Deep Neural Networks and Tree Search)”的特邀演讲。在演讲中,他主要阐述了AlphaGo的实现原理并对AlphaGo与人类棋手对弈结果进行了分析。

在演讲中他提到AlphaGo主要是改进了以下两种方法

l MCTS搜索(蒙特卡洛树搜索) l CNN(卷曲神经网络)

Value Networks(价值网络)和 Policy Networks(策略网络)方面:

Value Networks 评估棋盘位置,Policy Networks 选择下棋步法,这些神经网络模型通过一种新的方法进行训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习,其实质是深度学习网络(CNN)跟蒙特卡罗搜索树(MCTS)进行结合。

基于全局特征和深度卷积网络(CNN)训练出来的策略网络(Policy Network),其主要作用是给定当前盘面状态作为输入,输出下一步棋在棋盘其它空地上的落子概率。

另一个是利用局部特征和线性模型训练出来的快速走棋策略(Rollout Policy),策略网络速度较慢但精度较高,快速走棋策略则反之。

策略网络上的监督学习

l 12层的卷曲神经网络 l 使用Google Cloud在超过50个GPU中训练四周的时间 l 在测试数据集上57%的准确率(目前最佳44%)

策略网络上的强化学习

l 12层的卷曲神经网络 l 使用Google Cloud在超过50个GPU中训练一周的事件 l 相比监督学习实现了80%的结果,业余3段水准

策略网络与先前训练好的策略网络互相对弈,利用增强式学习来修正策略网络的参数,最终得到增强的策略网络。

实现过程如下:

利用普通的策略网络来生成棋局的前U-1步(U是一个属于[1, 450]的随机变量),然后利用随机采样来决定第U步的位置(这是为了增加棋的多样性,防止过拟合)。

随后,利用增强的策略网络来完成后面的自我对弈过程,直至棋局结束分出胜负。此后,第U步的盘面作为特征输入,胜负作为label,学习一个价值网络(Value Network),用于判断结果的输赢概率。价值网络其实是AlphaGo的一大创新,围棋最为困难的地方在于很难根据当前的局势来判断最后的结果,这点职业棋手也很难掌握。通过大量的自我对弈,AlphaGo产生了3000万盘棋局,用来训练价值网络。但由于围棋的搜索空间太大,3000万盘棋局也不能帮AlphaGo完全攻克这个问题。

AlphaG的一个关键之处在蒙特卡罗搜索树(MCTS)中嵌入了深度神经网络来减少搜索空间,这大大减少了不必要的搜索步骤,通过价值网络和策略网络显著提升了其胜率。

使用策略网络减少其宽度

使用价值网络减少深度

利用这两个改进的网络来分别判断局势,两个局势得分相加为此处最后走棋获胜的得分。这里使用快速走棋策略是一个用速度来换取量的方法,从被判断的位置出发,快速行棋至最后,每一次行棋结束后都会有个输赢结果,然后综合统计这个节点对应的胜率。而价值网络只要根据当前的状态便可直接评估出最后的结果,两者各有优缺点并进行互补。

在2015年10月5:0战胜欧洲围棋冠军樊麾(三届欧洲围棋冠军)之后,AlphaGo于2016年3月4:1战胜韩国传奇棋手李世石(近十年内围棋顶尖棋手之一)。在第四局中由于李世石棋手的“神之一手”,AlphaGo落败,也给了AlphaGo入围Goratings排名榜单的机会。

在David Silver看来,AlphaGo已超越了所有其他围棋AI程序。在首尔与李世石对弈过程中,他认为AlphaGo已经展现出超越专业9段棋手的水准,按Goratings分数来排名的话应该接近4500分左右。这个分数不仅超过中国棋手柯洁九段的最高分数,也比其自身目前分数要高。究竟这个惊人的成绩是否属实,让我们期待AlphaGo与柯洁九段的终极“人机大战“。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-07-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

David Silver深度强化学习课程「中文字幕」— #共同学习

David Silver 博士是 AlphaGo 的最主要研发人员。众所周知,AlphaGo 是第一个战胜人类顶级围棋高手的计算机围棋程序。AlphaGo 底层...

5015
来自专栏量子位

频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP

作者:夏飞 Google | 软件工程师 量子位 已获授权编辑发布 转载请联系原作者 本文作者夏飞,清华大学计算机软件学士,卡内基梅隆大学人工智能硕士,现为谷歌...

3674
来自专栏PPV课数据科学社区

当统计学遇上大数据——P值消亡

有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里,“P值为零”,一个声音传来,“但你已经不能再拒绝,因为,P值已经死了”从此,这个世界上充斥着谎言。...

2975
来自专栏量子位

怎样三天训练出AI围棋大师?教你AlphaGo Zero的3个trick

原作 Seth Weidman 夏乙 问耕 编译自HackerNoon 量子位 出品 | 公众号 QbitAI ? 过去一年,AI领域最exciting的进展可...

3228
来自专栏专知

【AlphaGo Zero Nature围棋论文翻译与笔记】不使用人类知识通过强化学习精通围棋!

【导读】Google DeepMind AlphaGo团队在Nature上发表两篇论文《Mastering the game of Go without Hum...

4426
来自专栏ivan空间

一种基于小数据量做分析判断的方法

在进行业务开发时,可能经常需要根据累计的样本数据,进行判断;并根据判断的结果进行相关的处理。

1175
来自专栏机器之心

独家 | 专访AAAI 2018最佳论文作者,记忆增强蒙特卡洛树搜索细节解读

3048
来自专栏Brian

统计学基础一之数据描述和随机变量

---- 概述 最近在梳理统计学基础,发现一些统计学的基本知识已经全部还给老师。由于在学习和工作中用到一部分,所以又重新拿了起来。统计学:主要分为描述统计学和推...

2754
来自专栏机器之心

NIPS 2017最佳论文出炉:CMU「冷扑大师」不完美信息博弈研究获奖

3168
来自专栏机器之心

超越蒙特卡洛树搜索:北大提出深度交替网络和长期评估围棋模型

选自arXiv 机器之心编译 参与:李泽南、吴攀 在五月底与柯洁等人的系列对局之后,人工智能围棋大师 AlphaGo 已经功成名就,金盆洗手了,参阅《现场报道 ...

2805

扫码关注云+社区