登顶世界第一! 相比其他AI,AlphaGo究竟有何不同?

世界职业围棋排名网站GoRatings最新排名显示,连续24个月排名世界第一的中国棋手柯洁被谷歌人工智能机器人AlphaGo反超。截止目前,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。

如上图所示,目前Google Deepmind AlphaGo以3611分排名世界第一,柯洁以3608分排名世界第二,而之前与AlphaGo进行“人机大战”以1:4告负的韩国棋手李世石以3557排名第四。

按照Goratings世界围棋排名的规则,如果一名新加入的棋手只赢不输的话,是不能被算入正式排名的。而此前AlphaGo正好输了李世石一盘,因此给了AlphaGo入围排名榜单的机会,此前一直排名世界第二。另外,Goratings的规则要求之前有过交手的双方,如果对手的积分发生改变,则自身积分也会相应调整。AlphaGo此前以4胜1负战胜李世石,因此只要李世石的积分提升,AlphaGo也会跟着提升。而柯洁的排名之所以下降是因为近日在金立杯两岸世界冠军争霸赛表现不佳,胜周俊勋,负时越和唐韦星,这才给了AlphaGo称为世界第一的机会。

至此,AlphaGo以3612分登顶世界第一,超越了所有人类棋手。这让我们不由得想,到底是什么使得AlphaGo如此不同,能在所有的围棋AI中拔得头筹,甚至打败人类登顶世界第一?

在刚刚过去的IJCAI2016(第25届国际人工智能联合会议)学术大会中,谷歌 DeepMind 研究员、AlphaGo幕后英雄之一David Sliver 发表了题为“使用深度神经网络和树搜索来精通围棋游戏(Mastering the Game of Go with Deep Neural Networks and Tree Search)”的特邀演讲。在演讲中,他主要阐述了AlphaGo的实现原理并对AlphaGo与人类棋手对弈结果进行了分析。

在演讲中他提到AlphaGo主要是改进了以下两种方法

l MCTS搜索(蒙特卡洛树搜索) l CNN(卷曲神经网络)

Value Networks(价值网络)和 Policy Networks(策略网络)方面:

Value Networks 评估棋盘位置,Policy Networks 选择下棋步法,这些神经网络模型通过一种新的方法进行训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习,其实质是深度学习网络(CNN)跟蒙特卡罗搜索树(MCTS)进行结合。

基于全局特征和深度卷积网络(CNN)训练出来的策略网络(Policy Network),其主要作用是给定当前盘面状态作为输入,输出下一步棋在棋盘其它空地上的落子概率。

另一个是利用局部特征和线性模型训练出来的快速走棋策略(Rollout Policy),策略网络速度较慢但精度较高,快速走棋策略则反之。

策略网络上的监督学习

l 12层的卷曲神经网络 l 使用Google Cloud在超过50个GPU中训练四周的时间 l 在测试数据集上57%的准确率(目前最佳44%)

策略网络上的强化学习

l 12层的卷曲神经网络 l 使用Google Cloud在超过50个GPU中训练一周的事件 l 相比监督学习实现了80%的结果,业余3段水准

策略网络与先前训练好的策略网络互相对弈,利用增强式学习来修正策略网络的参数,最终得到增强的策略网络。

实现过程如下:

利用普通的策略网络来生成棋局的前U-1步(U是一个属于[1, 450]的随机变量),然后利用随机采样来决定第U步的位置(这是为了增加棋的多样性,防止过拟合)。

随后,利用增强的策略网络来完成后面的自我对弈过程,直至棋局结束分出胜负。此后,第U步的盘面作为特征输入,胜负作为label,学习一个价值网络(Value Network),用于判断结果的输赢概率。价值网络其实是AlphaGo的一大创新,围棋最为困难的地方在于很难根据当前的局势来判断最后的结果,这点职业棋手也很难掌握。通过大量的自我对弈,AlphaGo产生了3000万盘棋局,用来训练价值网络。但由于围棋的搜索空间太大,3000万盘棋局也不能帮AlphaGo完全攻克这个问题。

AlphaG的一个关键之处在蒙特卡罗搜索树(MCTS)中嵌入了深度神经网络来减少搜索空间,这大大减少了不必要的搜索步骤,通过价值网络和策略网络显著提升了其胜率。

使用策略网络减少其宽度

使用价值网络减少深度

利用这两个改进的网络来分别判断局势,两个局势得分相加为此处最后走棋获胜的得分。这里使用快速走棋策略是一个用速度来换取量的方法,从被判断的位置出发,快速行棋至最后,每一次行棋结束后都会有个输赢结果,然后综合统计这个节点对应的胜率。而价值网络只要根据当前的状态便可直接评估出最后的结果,两者各有优缺点并进行互补。

在2015年10月5:0战胜欧洲围棋冠军樊麾(三届欧洲围棋冠军)之后,AlphaGo于2016年3月4:1战胜韩国传奇棋手李世石(近十年内围棋顶尖棋手之一)。在第四局中由于李世石棋手的“神之一手”,AlphaGo落败,也给了AlphaGo入围Goratings排名榜单的机会。

在David Silver看来,AlphaGo已超越了所有其他围棋AI程序。在首尔与李世石对弈过程中,他认为AlphaGo已经展现出超越专业9段棋手的水准,按Goratings分数来排名的话应该接近4500分左右。这个分数不仅超过中国棋手柯洁九段的最高分数,也比其自身目前分数要高。究竟这个惊人的成绩是否属实,让我们期待AlphaGo与柯洁九段的终极“人机大战“。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-07-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

超越蒙特卡洛树搜索:北大提出深度交替网络和长期评估围棋模型

选自arXiv 机器之心编译 参与:李泽南、吴攀 在五月底与柯洁等人的系列对局之后,人工智能围棋大师 AlphaGo 已经功成名就,金盆洗手了,参阅《现场报道 ...

2595
来自专栏数据科学与人工智能

【数据科学】大数据科学方法变革和哲学思考

随着信息技术和网络技术的快速发展,人类所存储的数据越来越多,数据已经从量变走向了质变,成为了“大数据”(Big Data)。大数据概念首见于1998年《科学》(...

2157
来自专栏量子位

新AlphaGo这么强!36小时从0自学成大师,100:0把李世乭版秒成渣渣 | Nature论文

李林 千平 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? “它最终超越了我们所有预期”。 DeepMind团队又放惊天消息。 简单地说,AlphaG...

3125
来自专栏AI科技大本营的专栏

围棋天团告负!1v5英雄“狗”背后的原理概括

今天,中国围棋峰会进行到了第四天,AlphaGo挑战两种未曾体验过的比赛:人机配对赛和1v5的团体赛。 对于全新的比赛形式,棋圣聂卫平与AlphaGo之父哈萨比...

34911
来自专栏AI科技大本营的专栏

AI是万能的吗?当前AI仍面临的难题是什么?

【导读】谈到人工智能(特别是计算机视觉领域),大家关注的都是这一领域不断取得的进步,然而人工智能到底发展到什么程度了?AI 已经成为万能的了吗?Heuritec...

792
来自专栏大数据文摘

非得从零开始学习?扒一扒强化学习的致命缺陷

Deepmind在Alphago上的成就把强化学习这一方法带入了人工智能的主流学习领域,【从零开始学习】也似乎成为了抛弃人类先验经验、获取新的技能并在各类游戏击...

700
来自专栏机器人网

手把手教你三天训练出自己的AI围棋大师

过去一年,AI领域最exciting的进展可能要数AlphaGo的不断进步。AlphaGo Zero不仅提出了新的网络架构,也带来了一些新的神经网络训练技巧。 ...

3166
来自专栏专知

【AlphaGo Zero Nature围棋论文翻译与笔记】不使用人类知识通过强化学习精通围棋!

【导读】Google DeepMind AlphaGo团队在Nature上发表两篇论文《Mastering the game of Go without Hum...

3526
来自专栏量子位

怎样三天训练出AI围棋大师?教你AlphaGo Zero的3个trick

原作 Seth Weidman 夏乙 问耕 编译自HackerNoon 量子位 出品 | 公众号 QbitAI ? 过去一年,AI领域最exciting的进展可...

3028
来自专栏机器之心

学界 | Science论文揭秘:Libratus如何在双人无限注德扑中击败人类顶级选手

3517

扫描关注云+社区