DeepMind官方解密新版 AlphaGo 棋艺制胜奇招:价值网络把控通盘局面

【新智元导读】4月10日,中国棋院与谷歌在北京宣布,今年5月在“中国乌镇·围棋峰会”上AlphaGo升级版将与最顶尖的人类棋手进行对弈,世界冠军柯洁将出战。 随后,DeepMind CEO Demis Hassabis 在官方博客上撰文介绍了这一比赛和全新版的 AlphaGo,并强调 AlphaGo 不仅会下棋,在节约能源、医疗、翻译等方面也得到了应用。其团队详细也解读了AlphaGo 在围棋上的最新技术进步,包括策略和战略上的创新。

今天,中国围棋协会和浙江省体育局携手Google共同宣布,三方将联合主办“中国乌镇·围棋峰会”,届时AlphaGo将再度与最顶尖的人类棋手进行对弈。这场为期5天,有关围棋与人工智能的赛事将于5月23日至27日在中国最负盛名的水乡古镇、世界互联网大会永久会址——浙江桐乡乌镇举行。

在去年与围棋世界冠军李世石的对弈中,AlphaGo以出其不意的招法,给世人留下了深刻的印象,也给围棋这项延续千年的智慧游戏带来了全新的想象力,同时也表明围棋的奥妙仍有足够的空间在等待我们去探索。

DeepMind CEO Demis Hassabis 在官方博客撰文文写道:不像有些人担心人工智能减弱了围棋游戏的乐趣那样,相反,人工智能实际上使人类玩家变得更强大,更多创新。围棋作为可能是历史上被研究和思考得最多的游戏,不管是专业棋士还是业余围棋爱好者,在仔细研究 AlphaGo 创新的每一步棋时,实际上已经学到了新的知识和策略。

“AlphaGo 的下棋方式使我们感到自由,让我们觉得没有任何走棋是不可能的。现在人人都在尝试从前没有尝试过的风格。” ——周瑞阳,九段棋士

显然,最好的人类围棋棋士和最具创新的围棋 AI 对手之间的伙伴关系还有待更多认识。这就是为什么我们很高兴地宣布 AlphaGo 下一步的计划:在围棋的发源地中国,参与为期五天的的围棋峰会。

视频内容

时隔一年,AlphaGo将与柯洁为代表的中国顶尖棋手一道,进一步追求围棋的真谛。柯洁表示能和AlphaGo对战是他的荣幸,面对大家对最终输赢的疑虑和关心,他表示自己一定要赢。整个活动柯洁多次表达自己拼劲全力求胜的决心,在微博也对AlphaGo说“来啊”,给自己打气。

媒体会中也有观点认为,这个赛事重要的意义不在于输赢,更在于为人类更好地研究、开发和使用人工智能做出有益的尝试。这个赛事是现代科技与中国传统文化的美妙结合额,透过日新月异发展的人工智能,传承了千年历史的围棋必将进一步闪耀出其智慧的光芒。

图:凭借精湛的洞察力和毫不动摇的信心,柯洁以平稳的风格著称,总是了解何时可大胆落子何时该谨慎行事。上图中,Google 首席执行官 Sundar Pichai 访问聂卫平在北京的围棋道场时,柯洁(右一)与聂卫平(柯洁旁边),樊麾(站着)和古力(左一)一起,凭借记忆复现 AlphaGo 与李世乭的一盘棋的开头几手,并向 Pichai 解释这些落子之美。

根据大会安排,本次围棋峰会内容丰富。其中AlphaGo与世界排名第一的柯洁的三番棋对弈无疑是众人最关注的焦点。另外峰会还将举办配对赛和团队赛两场形式各异的交流比赛,配对赛中,两位棋手将分别与AlphaGo组队,挑战棋手如何去理解AlphaGo的独特风格并与之合作;在团队赛中,将由五位中国顶尖棋手合作,建立棋手“神经网络”,降低心理因素的影响,从而做出更加客观的判断。

Demis Hassabis 还介绍说,目前,已经有一些 AlphaGo 背后的机器学习方法被用于解决一些重要问题,例如减少能源使用。机器学习技术也已经被用于一系列令人兴奋的医学研究项目中。而且在 Google 的许多产品中,机器学习突然使得许多不可能变为可能——让 Google Photos 的用户能够立即地在如山的照片中找到一张雪地上的狗的照片,比过去十年的改进加在一起还要多地一次性提高了 Google Translate 的翻译质量,等等。

我们很期待这次的围棋对弈和讨论将带来哪些见解,以及这些见解将如何帮助我们解决共同的挑战——无论是围棋上的挑战还是其他挑战。

AlphaGo 的创新在职业围棋界中显示出巨大的影响潜力,我们希望在即将到来的“中国乌镇·围棋峰会”上达成更多的合作研究机会。我们非常期待 AlphaGo 和人类专业棋士共同探索围棋的真正本质!

视频内容

4月10日,在中国棋院举行的发布会上,Demis 以视频的方式发表讲话。

AlphaGo 棋艺革新:三三定式(3-3 invasion)和妖刀定式

另一篇博客《Innovation of AlphaGo》上,DeepMind的软件工程师与围棋专业棋手樊麾共同讲解了自去年以来AlphaGo在围棋策略和战术上的进步。

Alphago 强大之处并不在于单独的一手或一连几手,而是它为每一局对弈带来的独一无二的新视角。虽然围棋的风格很难以一言以蔽之,但 AlphaGo 的策略象征了一种灵活和开放的精神:没有先入为主的观念,因此可以找到最有效的对弈策略。

正如以下两局对弈所显示的,这种思想经常使 AlphaGo 得出有悖直觉但十分强大的行动。

尽管围棋是“围地吃子”的游戏,但是大多数决策类的战斗都讲究双方的力量平衡。AlphaGo 在维持平衡方面可谓一绝。具体说,AlphaGo 在运用“势”方面能力精湛,也就是利用已经下定的棋子影响周围的形势。虽然这种“势”无法量化,但 AlphaGo 的价值网络使其能够一次考虑到通盘的局面,从而做出细微且精确的判断。这些能力让 AlphaGo 将局部的“势”扩展为全局的优势。

在这局棋里(Dia.1),黑子(AlphaGo)安全领域(secure territory)很少,而白子占据了三个角。但是,黑子的“势”辐射到整个盘面。尤其是标记出的落子,虽然巩固了白棋,但同时也增强了黑棋的可能性。围棋选手通常会避免这样的出招,因为这样必定会付出代价,而回报却不一定。但 AlphaGo 结合它对风险和奖励强劲的判断,最终下出了这一步棋。

但是,这些“势”的价值全部取决于具体的场景。当这些“势”能够有效转移时,AlphaGo 都自由地消去这些“势”。在 Dia.2 中,AlphaGo 下出了惊人的 6 子连线(三角标记)。围棋选手评价称,在第四行(圆圈标记)有“势”,在第三行有地(territory),但在第二行只有败局。AlphaGo 的走法最初看起来是符合这些评价的,这些落子给了白棋力量和“势”。大多数围棋选手都不会下出这样的6子连在一起的棋。但是,AlphaGo 判断这样有助于将白棋分散开来,在接下来的过招中,慢慢地侵蚀白棋的优势,从上方和下方同时确保了领先的优势。

新的招式,新的模式

AlphaGo 在最近的几句对弈中,还下出了一些开局的新招式。最引人注目的是开局的3-3入侵和“Magic Sword”的新变种。每个都违反了常规理论,但在更深入的反思中,却证明是符合道理的。

初盘的三三定式(3-3 invasion)

围棋占据角落最常见的方法是3-3 point invasion,如Dia.3 所示。

这样落子立马就确保了角落的安全。但是,像 Dia.4 显示的教科书式的接下来的开盘布局,很早就被抛弃了,因为“势”太多(it gives too much influence)。

AlphaGo 的创新之处在于,它省略了标记出的过招,让角落处在 Dia.5 显示的不确定(unsettled)的状态。

尽管不那么安全,黑子仍然保有从左边逃出,或者在右边落子占据角落的选择,这样就在仅仅减弱些微 influence 的情况下,占据了更多的领地(territory)。这个策略在职业棋手之间激起了热烈的讨论,而且至少已经有一个人在实际对弈中应用了这一招。

The New Magic Sord

AlphaGo 最初是使用人类的数据进行训练的,因此它知道当代落子占角的下法,也通常按照这样的顺序落子。但是,在“Magic Sword”,也即被称为“村正妖刀”的围棋定式中,AlphaGo 却出现了偏离。

Dia. 7

Dia. 8

从 Dia.7 显示的局面开始,常规的落子过招会出现 Dia. 8 的情况。

然而,AlphaGo 往往更喜欢放弃外围,赢取领地上的优势(Dia. 9所示)。

大多数围棋选手都不会考虑下这种棋,因为这样黑棋虽然有很强的城墙(wall),但白棋的后手跟进让黑棋的“势”并没有看上去那么大。如果黑棋不继续巩固这面城墙,还会遭到攻击。韩国顶尖棋手金志锡(Kim Jiseok)最近在一场比赛中用了这一系列落子(Dia. 10所示),他最终赢得了那场比赛。

AlphaGo 和柯洁对弈比赛规则

围棋在各地的规则并不完全相同,中国大陆围棋规则是数子法,日本围棋规则和韩国围棋规则是数目法,另外还有计点制度。一盘棋用三种规则计算出来的结果一般是相同的。本次乌镇比赛采用中国规则。本次比赛详细介绍如下:

1. 柯洁对战AlphaGo:三番棋,无论输赢都要下完三番,每方3小时,5次1分钟读秒;如果柯洁获胜,将获得150万美元奖金;

2. 配对赛:两位棋手分别与AlphaGo组队,每方1小时,1次1分钟读秒,将由连笑、古力将出战;

3. 团队赛:五位中国顶尖棋手合作,每方2小时30分,保留3次1分钟读秒,柯洁、周睿羊、时越、唐韦星、陈耀烨出战

AlphaGo是第一个击败人类职业围棋选手、第一个战胜世界冠军的程序,是围棋史上最具实力的选手之一。2016年3月,在全世界超过一亿观众的关注下,AlphaGo经过5局对弈,最终以4比1的总比分战胜了围棋世界冠军李世石。此后,AlphaGo凭借其“充满创意而又机智”的下法,跻身围棋界最高职业称号——职业九段行列,成为历史上首个获得这一荣誉的非人类棋手。

近期,AlphaGo的升级版本以“Master/Magister”的称谓与世界顶级的围棋选手进行了60场线上快棋赛,并取得59胜1和棋。

一直以为,围棋就被认为是传统游戏中对人工智能而言最具挑战性的项目。这不仅仅是因为围棋包含了庞大的搜索空间,更是因为对于落子位置的评估难度已远远超过了简单的启发式算法。

为了应对围棋的巨大复杂性,AlphaGo结合了监督学习和强化学习的优势。通过训练形成了一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索,实现了它的真正优势。最后,新版的AlphaGo产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

在获取棋局信息后,AlphaGo会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为AlphaGo的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力智商加入近似人类的直觉判断。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

最终一战柯洁再负AlphaGo,此后再无围棋人机大战

唐旭 舒石 发自 乌镇 量子位 报道 | 公众号 QbitAI 5月27日,人机大战第三场,天气晴朗。 经过209手的博弈,主动要求执白的柯洁再次负于Alpha...

34713
来自专栏AI科技评论

重磅 | 继 AlphaGo 又一突破:人工智能战胜德州扑克职业选手

AI 科技评论消息:当地时间 1 月 30 日,在宾夕法尼亚州匹兹堡的 Rivers 赌场,卡耐基梅隆大学(CMU)开发的人工智能系统 Libratus 战胜四...

3258
来自专栏新智元

【柯洁乌镇终败】全盘回顾人类最后希望与围棋上帝终极PK

【新智元导读】“英雄”、“人类最后的希望”柯洁还是输了。在胜负大局已定的第三盘比赛中,柯洁再次输给了AlphaGo。自此,阿老师在围棋上完成超越人类三部曲。在人...

3515
来自专栏企鹅号快讯

柯洁:重要的不是有没有“食言”,而是不断地打碎和重建

欢迎转发,转载请联系。 “之前在乌镇跟‘AlphaGo’下完之后说我再也不会跟人工智能下棋了,但是现在我食言了。” 昨天上午,柯洁在第一届“吴清源杯”世界女子围...

2116
来自专栏量子位

输了!柯洁首战告负AlphaGo,哈萨比斯:这不是人机大战

唐旭 若朴 发自东瑶村 量子位 报道 | 公众号 QbitAI 19岁的柯洁输了。 围棋人机大战2.0版的第一场,双方交锋至第286手棋,执黑的柯洁以约四分之一...

34610
来自专栏企鹅号快讯

一年坎坷也曾怀疑自己,如今五冠在手的柯洁将再战AI

柯洁、於之莹任形象大使 中新网客户端北京12月27日电(记者 岳川) 刚刚成为史上最年轻“五冠王”的世界冠军柯洁九段将于明年再战人工智能。柯洁27日表示,弈无止...

19710
来自专栏量子位

柯洁食言:明年四月,再战AI

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI “我说不再跟AI下棋,现在食言了。” 刚刚,人类围棋第一人柯洁九段宣布:明年4月,将再次与围棋AI...

2863
来自专栏量子位

围棋人机大战明日上演,这份观赛指南请留好

问耕 假装发自乌镇 量子位 报道 | 公众号 QbitAI ? 柯洁与AlphaGo的围棋人机大战,将于明天正式上演。以下内容是量子位整理的一份观赛指南,以及目...

2627
来自专栏机器之心

柯洁1/4子惜败,机器之心独家对话AlphaGo开发者导师 Martin Müller

机器之心报道 参与:杜夏德、李泽南 第一战,AlphaGo 赢了!几乎不出人意料。 5 月 23 日,中国围棋协会和浙江省体育局携手谷歌联合主办的「中国乌镇·...

2868
来自专栏AI科技大本营的专栏

AlphaGo模仿柯洁开局,激战3小时人类再度败北

根据比赛最新消息,5月25日,柯洁对阵AlphaGo第二局,双方激战3个小时,执白子的柯洁再度输给AlphaGo ,第二次人机大战胜负已定。 中国乌镇围棋峰会...

3176

扫码关注云+社区

领取腾讯云代金券