动态 | 围棋教学工具 AlphaGo Teach上线第二天，Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目

AI科技评论

修改于 2020-04-29 17:58:58

1.2K0

修改于 2020-04-29 17:58:58

文章被收录于专栏：AI科技评论

AI 科技评论消息，北京时间 12 月 11 日晚，DeepMind 在 twitter 上宣布推出围棋教学工具 AlphaGo Teach。

上图中，标有白圈的黑子表示上一手，虚线圆圈表示 AlphaGo 下一步可能的走法，实线圆圈表示人类选手下一步可能的走法，圆圈中的数字表示 AlphaGo 评估的黑子胜率。

从官网上可以看到，该工具通过利用 231000 盘人类棋手对局、75 盘 AlphaGo 与人类棋手对局的数据，能对围棋近代史上 6000 种比较常见的开局给出分析。通过这个工具，大家可以探索围棋奥妙，比较 AlphaGo 的下棋路数与专业选手、业余选手的不同点，从中学习。

官网上对于工具的使用也有相关说明：

如何使用这一工具？

点击棋盘上的彩色圆圈，或使用棋盘下方的导航工具，即可探索不同的开局变化，以及 AlphaGo 对于每一步棋的黑棋胜率预测。

圆圈中的数字代表了该步棋的黑棋胜率。当轮到黑棋落子时，数值越接近 100 表示黑棋优势越大；当轮到白棋落子时，数值越接近 0 表示白棋优势越大。50 则表示均势。

了解 AlphaGo 的胜率预测

AlphaGo 的下法不一定总是具有最高的胜率，这是因为每一个下法的胜率都是得自于单独的一个 1000 万次模拟的搜索。AlphaGo 的搜索有随机性，因此 AlphaGo 在不同的搜索可能会选择胜率接近的另一种下法。

除了官网上的简单介绍，作为 DeepMind 围棋大使、AlphaGo 的「教练」，樊麾也在其个人微博上宣布「AlphaGo 教学工具终于上线。」

他表示，

教学工具共有两万多个变化，三十七万多步棋组成，通过 AlphaGo 的视角，分析并建议围棋开局的诸多下法。同时每步棋 AlphaGo 都会给出自己的胜率分析，希望 AlphaGo 对围棋的独特理解可以给我们一些启发。本教学工具使用的版本是 AlphaGo Master。具体信息可以在主页上看到，工具设有包括中文简体在内的多个语言。

同时，樊麾也从 AlphaGo 的教学中举了几个有意思的例子，并进行了幽默地解说。「下边的几个图是我从万千变化图中发现比较有冲击力的几个，类似的变化图有很多很多，大家可以自己找找。」

原来二路虎不见得好！

对付迷你中国流的新办法！

小林流也不是只有大飞挂！

原来这里还可以飞！

妖刀定式！

而在看到樊麾老师的微博之后，大家也开始了各色各样的调侃。

@ 楼天，「有 21 天从入门到精通系列课程吗？」 @ 我就是那一片浮云，「完了，十段棋手猛烈增加。」 @ 自动高速公路，「做成 app 就可以成为围棋比赛作弊器了。」 @ 于缚风，「围棋辅导班的老师没法讲课了。」（围棋老师表示哭晕在厕所）

看完了大家的调侃，来看看专业棋手们怎么说。

世界围棋冠军、职业九段棋手常昊表示，教学工具不一定是标准答案，更多的是给予了我们无限的思考空间。

首届百灵爱透杯世界围棋公开赛冠军周睿羊说到，「定式什么的还是不要随便学了，看到工具一些高级下法之后，感觉到又可以起飞了。」

第 3 届钻石杯龙星战冠军，围棋国手李喆也对这一教学工具发表中肯评价：很多人会担心今后布局的标准化，其实不必担心。教学工具并不是告诉大家「只能这么下」，而是告诉大家「有些下法不太好」以及「可以这么下」。有些图中没有的下法只是因为模拟的随机性而未被收录，它们之中包含很多高胜率的选点，仍可以大胆尝试。

此外，今年五月份被 AlphaGo Master 打败的柯洁第一时间转发微博表示「重新学围棋。」（还用了一个贱贱的 doge 表情）

而这个工具到底好不好用，大家可以去自行体验。

官网英文地址如下：https://alphagoteach.deepmind.com/

中文地址如下：https://alphagoteach.deepmind.com/zh-hans

附 David Silver 介绍 AlphaGo Master 的研发关键：

AlphaGo Master 为何如此厉害呢？

我们让 AlphaGo 跟自己对弈。这是基于强化学习的，我们已经不再拿人类的棋局给它学习了。AlphaGo 自己训练自己，自己从自己身上学习。通过强化学习的形式，它学到如何提高。

在棋局的每一回合，AlphaGo 运行火力全开（full power）的搜索以生成对落子的建议，即计划。当它选择这一步落子、实施、并到一个新回合时，会再一次运行搜索，仍然是基于策略网络和价值网络、火力全开的搜索，来生成下一步落子的计划，如此循环，直到一局棋结束。它会无数次重复这一过程，来产生海量训练数据。随后，我们用这些数据来训练新的神经网络。

首先，当 AlphaGo 和它自己下棋时，用这些训练数据来训练一个新策略网络。事实上，在 AlphaGo 运行搜索、选择一个落子的方案之前，这些是我们能获取的最高质量的数据。
下一步，让策略网络只用它自己、不用任何搜索，来看它是否能产生同样的落子的方案。这里的思路是：让策略网络只靠它自己，试图计算出和整个 AlphaGo 的火力全开搜索结果一样的落子方案。这样一来，这样的策略网络就比之前版本的 AlphaGo 要厉害得多。我们还用类似的方式训练价值网络。它用最好的策略数据来训练，而这些数据，是出于完全版本的 AlphaGo 自己和自己下棋时的赢家数据。你可以想象，AlphaGo 自己和自己下了非常多盘棋。其中最有代表性的棋局被选取出来提取赢家数据。因此，这些赢家数据是棋局早期回合步法的非常高质量的评估。
最后，我们重复这一过程许多遍，最终得到全新的策略和价值网络。比起旧版本，它们要强大得多。然后再把新版本的策略、价值网络整合到 AlphaGo 里面，得到新版本的、比之前更强大的 AlphaGo。这导致树搜索中更好的决策、更高质量的结果和数据，再循环得到新的、更强大的策略、价值网络，再次导致更强大的 AlphaGo，如此不断提升。

Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目

在 12 月 12 日晚间，仅仅一天之后，又迎来另一条引爆媒体圈的消息：DeepMind 资深研究员的黄士杰宣布离开 AlphaGo 项目。

他在 Facebook 上发表临别感言：

AlphaGo 教学工具已经发布，这也是我 AlphaGo 研究之旅的美好句点。我已经转到 DeepMind 的其他专案，也将在深度学习与强化学习的 AI 研究上持续探索与精进。感谢大家的关注，很高兴 AlphaGo 所带给大家的惊喜与美妙的时光。我也期待 AlphaGo 教学工具对围棋界所产生的积极作用。未来，请大家持续关注 DeepMind 与我们其他的专案。

提到黄士杰，最广为熟知的是在 2016 年 3 月，作为 AlphaGo 的「手」，对战李世石——他将 AlphaGo 的棋步下到棋盘，并将李世石的棋步再输到电脑上。

黄士杰本科毕业于中国台湾交通大学资讯工程专业，后于中国台湾师范大学资讯工程所获得硕士与博士学位，他本身也是业余六段的围棋棋手。黄士杰与 AlphaGo 的不解之缘，要从他的业余爱好——围棋说起。曾经获得中国台湾大专杯业余围棋冠军的他，也曾在校内创办过围棋社。而从术业方面，黄士杰的指导教授林顺喜，所在的实验室正是专研各类棋类程序的开发。黄士杰的博士论文就是以「应用于电脑围棋之蒙地卡罗树搜索法的新启发式演算法」。

在 2010 年，黄士杰以妻子为名所设计的系统 Erica 在日本举办的国际奥林匹克竞赛中击败了日本程序员尾岛阳儿所开发的 Zen（业余五段水平），荣获当年的金牌，轰动一时。

2011 年，他在加拿大阿尔伯塔大学担任一年的研究员后，2012 年被英国的 DeepMind 纳入麾下，此后一直在 AlphaGo 项目中进行探索与研究。

而他最近一次出现在大众的视野，是在上个月。11 月 10 日，在中国台湾中研院举办的「2017 年人工智能年会」上，黄士杰首次为大家讲述 AlphaGo 的研发过程，并且还透露新一代 AlphaGo Zero 的能力还没达到极限。

在演讲中他表示，AlphaGo 的研发过程，有四个时刻对他影响很大。

一是在韩国战胜李世石。「当我们开始做 AlphaGo 时，没想到它会变得那么强。在韩国赢了李世石后，DeepMind 首席执行官 Demis Hassabis 立刻发了一个推特，说「我们登上月球」(We landed it on the moon.)。我明白 Demis 那天的感觉，这是我们团队的一小步，但却是人类的一大步。」
「第二个时刻，是我在网络上操作 AlphaGo 升级版「Master」，下了 60 盘棋。」他表示，自己从小喜欢下棋，在台湾是业余六段。「Master 在网络上对弈的对象，都是我从小崇拜的人。虽然不是我真正在下棋，但却感到非常荣幸。」
第三个时刻，是今年在乌镇的人机大战上操作 AlphaGo 和世界冠军柯洁九段下棋。他说道，「柯洁还不满 20 岁，非常年轻，当天比赛氛围和李世石对弈时很不同。我记得在韩国比赛，能感受到李世石承受到很大的压力，感觉他是在为人类而战。我当时坐在他对面，也尽量保持谨慎的态度，不喝水、不去上洗手间。但到了第二次和柯洁对弈，比较像是人机合作的气氛，柯洁还走过来说：『黄博士，很荣幸跟 AlphaGo 下棋』。」而他也表示，如果 Master 是无敌的，那机器存在的价值应该是要帮助棋手扩张思路、扩展围棋理论。
黄士杰表示，第四次于他的重要时刻，在于 AlphaGo Zero 的出现。通过喂给 AlphaGo Zero 围棋规则，让它自己学会下棋，无疑是人工智能的又一次突破。而随着系统能力的不断提升，人类在其中的作用也越来越小，甚至不再需要人类的帮助。而黄士杰也表示，这会是一个趋势，「AlphaGo 有 99% 的知识是我做的，AlphaGo 能走到这一步，我已经很满足，找到了收尾。」

或许，这也是黄士杰选择退出 Alpha Go 项目的根本原因。

而他昨天正式宣布离开 AlphaGo 项目，正如他在十一月的演讲中所说，「AlphaGo 能走到这一步，我已经很满足，找到了收尾。」

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-13，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能