深度 | 升级版AlphaGo 5月决战柯洁,DeepMind揭秘计算机全新棋风

机器之心原创

参与:李泽南、李亚洲、吴攀

4 月 10 日下午,谷歌在北京的中国棋院召开新闻发布会,正式宣布 AlphaGo 将于今年 5 月 23 日在浙江乌镇对决以柯洁为代表的中国顶尖棋手。

据机器之心现场了解,中国围棋协会和浙江省体育局携手谷歌三方将联合主办「中国乌镇·围棋峰会」。本次峰会将从 5 月 23 日至 27 日在浙江乌镇展开,除 AlphaGo 与柯洁的三番棋对战之外,还将举办配对赛和团体赛两场形式不同的交流比赛。

配对赛中,两位棋手将分别与 AlphaGo 组队,挑战棋手如何去理解 AlphaGo 的独特风格并与之合作;在团队赛中,将有五位中国顶尖棋手合作,建立棋手「神经网络」,降低心理因素的影响,从而做出更加客观的判断。

在发布会现场,柯洁表示,「能与 AlphaGo 对阵是我的荣幸,但我一定会击败 AlphaGo」。据悉,此次比赛的获胜奖金为 150 万美元。

离 AlphaGo 和李世乭的「人机大战」已经过去了一年,AlphaGo 与柯洁的对弈是业内期待已久的一场对决。去年 AlphaGo 与世界围棋冠军李世乭的比赛引起了极大的关注,人机对战成为人工智能领域的热门话题。不久之前,斩获 UEC 杯计算机围棋大赛冠军的腾讯人工智能系统「绝艺」,在东京举行的第五届「电圣战」世界人机大战中战胜了日本围棋界的新锐棋手一力辽七段(世界排名第 44 位,日本第 2)。

谷歌和 DeepMind 对于围棋的探索并未随着去年和今年初的两次「亮相」而结束,由于围棋近乎无穷的变化,人类棋手在千百年战术发展的过程中似乎并未触及围棋的本质,DeepMind 的研究者一直将目标定为探索围棋的极限。DeepMind 官方发布的 2016 年度总结 (http://www.jiqizhixin.com/article/2090) 中写道,「最激动人心的莫过于 AlphaGo 博弈过程中所呈现出来的创造力,有时,它的棋招甚至挑战了古老的围棋智慧。围棋,这一古往今来最富深谋远虑的游戏之一,AlphaGo 可以识别并分享其中洞见。」

此前,AlphaGo 在 2016 年 3 月与前围棋世界冠军,韩国棋手李世乭九段在韩国首尔进行了五次对决,并 4 比 1 获胜,第一次在正式比赛环境中战胜了人类顶尖棋手。AlphaGo 因此而获得了韩国棋院颁发的「名誉九段」证书。在沉寂了一段时间后,去年末,AlphaGo 以「Master」为名出现在腾讯野狐网上围棋平台中,与中日韩三国顶尖棋手进行了一系列网上快棋对决,并实现了 60 胜 0 负的完美战绩。

显然,AlphaGo 并不满足于线上围棋平台的胜利,谷歌方面很早就与中国棋院达成了一致,准备于今年举行新一轮的围棋人机大战。去年 12 月,谷歌联合创始人、Alphabet 总裁谢尔盖·布林和谷歌 CEO 皮查伊(Sundar Pichai)一同造访中国棋院,观摩了棋手训练,并与「棋圣」聂卫平九段及中国围棋队总教练俞斌九段进行了交流。

2016 年 12 月 31 日,柯洁在微博上表示:

「我从(2016 年)3 月份开始到现在研究了大半年的棋软,无数次的理论、实践,就是想知道计算机究竟强在哪里。昨晚辗转反侧,不想竟一夜无眠。人类数千年的实战演练进化,计算机却告诉我们人类全都是错的。我觉得,甚至没有一个人沾到围棋真理的边。但是我想说,从现在开始,我们棋手将会结合计算机,迈进全新的领域达到全新的境界。新的风暴即将来袭,我将尽我所有的智慧终极一战!」

AlphaGo 升级版

去年 1 月 28 日,Nature 杂志以封面论文的形式介绍了 DeepMind 团队开发的人工智能程序 AlphaGo,这也就是后来击败韩国棋手李世乭的 AlphaGo 版本。据此次发布会提供的信息,今年年初席卷中国围棋界的「Master/Magister」是 AlphaGo 的升级版本,但它下的是快棋,与此次对决的规则不同。

AlphaGo 结合了监督学习与强化学习的优势。通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对有所可行的落子位置形成一个概率分布。然后,训练一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到 1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。AlphaGo 将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。

在获取棋局信息后,AlphaGo 会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最繁琐考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo 的探索算法就能在其计算能力之上加入近似人类的直觉判断。

据了解,新版的 AlphaGo 产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

发布会期间,DeepMind 官方也发布了此次比赛的相关信息,并发表了一篇博客对新版 AlphaGo 的下棋思路进行了讲解。

视频内容

作为 AlphaGo 的一员,樊麾在 DeepMind 博客中介绍了 AlphaGo 的棋风。博客中写到,AlphaGo 在最近的比赛里展现出了开创性的棋风,其中最引人瞩目的是早期点三三和全新的「妖刀」变化。每个都违反了常规理论,但在更深入的研究中被证明是高明的下法。

AlphaGo 的强大之处不在于一招一式,而在于对每一局比赛展现出的全新视角。虽然围棋风格略显抽象,但 AlphaGo 的策略展示了灵活与开放的精神:没有先入为主的训练让它找到了最有效的下棋方式。正如下面两张图显示的,实用哲学让 AlphaGo 经常走出违反直觉——但却最为合理的举动。

尽管围棋是一个有关圈地的游戏,但胜负手却在于对不同战区之间的取舍平衡,而 AlphaGo 擅长创造这种平衡。具体来说,AlphaGo 擅长运用「影响力」——已有棋子对自己周围的影响为自己谋取优势。虽然 AlphaGo 的价值网络不能准确地计算出影响的数值,但它的价值网络能够一次性考虑棋盘上的所有棋子,以微妙和精确的方式做出判断。正是这样的能力让 AlphaGo 把自己在局部的优势转化为整个比赛的胜势。

在图 1 中,黑棋(AlphaGo)只有很小一块实地,而白棋占有三个角,但黑棋的影响力渗透了整个棋局。黑棋在左上角的刺改善了自己的局面,一般人类棋手都会避开这种直接交锋,为形成不确定的厚势而付出代价,但 AlphaGo 通过纯粹的判断与敏锐的利益计算让这种下法成为了可能。

虽然影响力的价值取决于整体,但 AlphaGo 可以有效地利用自己的大局观。在图 2 的一局里,AlphaGo 下出了不可思议的六连爬。在棋手中间有这样的习语:四线产生影响,三线围出实地,而二线只意味着失败。黑棋(AlphaGo)在二线的举动看起来是严重的错误,这一系列落子让白棋产生了厚势,而黑棋只在边上获得了四目的地盘。大多数棋手都不会做出这样看起来很愚蠢的举动,但 AlphaGo 认为将中间的白棋和右上角的白棋分开是值得的,在后续的对局中,黑棋缓慢地侵蚀了白棋在右上角和下方的影响力,最终将优势转化为胜势。

点三三是围棋主要的定式之一。

如图 4 所示,左下角这一入侵立即围出了实地,但棋谱中这种行为一直被认为是愚蠢的,因为这会给白棋造出厚势。

AlphaGo 的创新是在标记黑子位置的一靠,让左上角变得更不明确。

虽然黑棋不是很安全,但仍保留了在左下角存活,或在之后完成定式的选择,在失去了中等影响力的同时占领了实地。这个策略在专业棋手中引起了极大的轰动,并已在至少一次正式比赛中被人类棋手所采用。

新妖刀

原来的 AlphaGo 是在人类数据上训练的,所以它知道现代的定式,并通常据此行动。但是,在妖刀(这是一种得名于「村正妖刀」的定式系列)中,AlphaGo 有了新的变化。

从图 7 的局面开始,用托角交换边,如图 8 所示。

但是,AlphaGo 更倾向于牺牲外侧而换取更大的实地。

大多数棋手都不会考虑这种下法,因为这给黑棋制造了很大的模样,而白棋后面的走子方式表明黑棋的影响并不如看起来的那样有价值。如果黑棋不强化自己的外势,它就可能变成对手攻击的目标。韩国顶级棋手金志锡九段最近就在一场比赛中使用了这种战术(图 10),最后他赢得了胜利。

本文为机器之心原创,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

人工智能德州扑克读懂人心后,下一个挑谁?

CDA数据分析学院的德州扑克比赛才刚刚结束,就听到AI投来的战书。听说最近人工智能又盯上了德州扑克,最近几天的人机大战也是如火如荼。如果说第一天算是2比2打平手...

2486
来自专栏量子位

我是黄士杰,AlphaGo人肉臂

他面无表情,他冷静镇定,他会出现在对手的梦里,他是AlphaGo人肉臂。他热情幽默,多才多艺。他很少登台演讲。他不被允许接受采访。他是AlphaGo真正的创造者...

3866
来自专栏新智元

DeepMind官方解密新版 AlphaGo 棋艺制胜奇招:价值网络把控通盘局面

【新智元导读】4月10日,中国棋院与谷歌在北京宣布,今年5月在“中国乌镇·围棋峰会”上AlphaGo升级版将与最顶尖的人类棋手进行对弈,世界冠军柯洁将出战。 随...

36811
来自专栏机器之心

现场报道 | 让天下三子,DeepMind官方解读新版AlphaGo强大实力

机器之心原创 记者:杜夏德 参与:李泽南、吴攀 5 月 23 日,乌镇围棋峰会第一场人机大战以柯洁落败而结束,DeepMind 和谷歌在今天的人工智能高峰论坛中...

35210
来自专栏企鹅号快讯

德州扑克被AI攻破?刚进行到围棋九路盘而已

德州扑克被AI攻克?才刚开始 作者:余小鲁 作者系理论物理博士,人工智能专家。新浪扑克学院特邀讲师 Sunday, 31 December 2017 余小鲁博士...

2339
来自专栏量子位

人机大战简史:AI如何在20多年中一次次赶超人类

△ 1996年2月卡斯帕罗夫与深蓝的首场对决 量子位 | 若朴 编译整理 二十一年前的2月,国际象棋人机大战上演。 IBM的超级电脑深蓝,因与国际象棋世界冠军卡...

3567
来自专栏机器之心

柯洁1/4子惜败,机器之心独家对话AlphaGo开发者导师 Martin Müller

机器之心报道 参与:杜夏德、李泽南 第一战,AlphaGo 赢了!几乎不出人意料。 5 月 23 日,中国围棋协会和浙江省体育局携手谷歌联合主办的「中国乌镇·...

2858
来自专栏AI科技评论

重磅 | 继 AlphaGo 又一突破:人工智能战胜德州扑克职业选手

AI 科技评论消息:当地时间 1 月 30 日,在宾夕法尼亚州匹兹堡的 Rivers 赌场,卡耐基梅隆大学(CMU)开发的人工智能系统 Libratus 战胜四...

3258
来自专栏量子位

围棋人机大战一周年:被AlphaGo改变的世界

舒石、若朴 发自 凹非寺 量子位·QbitAI 报道 去年今日,三连败的李世乭扳回一局。 然而这一针兴奋剂很快失效,随后李世乭再折一阵,最终以1:4输给Alph...

3618
来自专栏量子位

围棋人机大战明日上演,这份观赛指南请留好

问耕 假装发自乌镇 量子位 报道 | 公众号 QbitAI ? 柯洁与AlphaGo的围棋人机大战,将于明天正式上演。以下内容是量子位整理的一份观赛指南,以及目...

2607

扫码关注云+社区

领取腾讯云代金券