AI 科技评论消息,北京时间 12 月 11 日晚,DeepMind 在 twitter 上宣布推出围棋教学工具 AlphaGo Teach。
上图中,标有白圈的黑子表示上一手,虚线圆圈表示 AlphaGo 下一步可能的走法,实线圆圈表示人类选手下一步可能的走法,圆圈中的数字表示 AlphaGo 评估的黑子胜率。
从官网上可以看到,该工具通过利用 231000 盘人类棋手对局、75 盘 AlphaGo 与人类棋手对局的数据,能对围棋近代史上 6000 种比较常见的开局给出分析。通过这个工具,大家可以探索围棋奥妙,比较 AlphaGo 的下棋路数与专业选手、业余选手的不同点,从中学习。
官网上对于工具的使用也有相关说明:
点击棋盘上的彩色圆圈,或使用棋盘下方的导航工具,即可探索不同的开局变化,以及 AlphaGo 对于每一步棋的黑棋胜率预测。
圆圈中的数字代表了该步棋的黑棋胜率。当轮到黑棋落子时,数值越接近 100 表示黑棋优势越大;当轮到白棋落子时,数值越接近 0 表示白棋优势越大。50 则表示均势。
AlphaGo 的下法不一定总是具有最高的胜率,这是因为每一个下法的胜率都是得自于单独的一个 1000 万次模拟的搜索。AlphaGo 的搜索有随机性,因此 AlphaGo 在不同的搜索可能会选择胜率接近的另一种下法。
除了官网上的简单介绍,作为 DeepMind 围棋大使、AlphaGo 的「教练」,樊麾也在其个人微博上宣布「AlphaGo 教学工具终于上线。」
他表示,
教学工具共有两万多个变化,三十七万多步棋组成,通过 AlphaGo 的视角,分析并建议围棋开局的诸多下法。同时每步棋 AlphaGo 都会给出自己的胜率分析,希望 AlphaGo 对围棋的独特理解可以给我们一些启发。 本教学工具使用的版本是 AlphaGo Master。具体信息可以在主页上看到,工具设有包括中文简体在内的多个语言。
同时,樊麾也从 AlphaGo 的教学中举了几个有意思的例子,并进行了幽默地解说。「下边的几个图是我从万千变化图中发现比较有冲击力的几个,类似的变化图有很多很多,大家可以自己找找。」
原来二路虎不见得好!
对付迷你中国流的新办法!
小林流也不是只有大飞挂!
原来这里还可以飞!
妖刀定式!
而在看到樊麾老师的微博之后,大家也开始了各色各样的调侃。
@ 楼天,「有 21 天从入门到精通系列课程吗?」 @ 我就是那一片浮云,「完了,十段棋手猛烈增加。」 @ 自动高速公路,「做成 app 就可以成为围棋比赛作弊器了。」 @ 于缚风,「围棋辅导班的老师没法讲课了。」(围棋老师表示哭晕在厕所)
看完了大家的调侃,来看看专业棋手们怎么说。
世界围棋冠军、职业九段棋手常昊表示,教学工具不一定是标准答案,更多的是给予了我们无限的思考空间。
首届百灵爱透杯世界围棋公开赛冠军周睿羊说到,「定式什么的还是不要随便学了,看到工具一些高级下法之后,感觉到又可以起飞了。」
第 3 届钻石杯龙星战冠军,围棋国手李喆也对这一教学工具发表中肯评价:很多人会担心今后布局的标准化,其实不必担心。教学工具并不是告诉大家「只能这么下」,而是告诉大家「有些下法不太好」以及「可以这么下」。有些图中没有的下法只是因为模拟的随机性而未被收录,它们之中包含很多高胜率的选点,仍可以大胆尝试。
此外,今年五月份被 AlphaGo Master 打败的柯洁第一时间转发微博表示「重新学围棋。」(还用了一个贱贱的 doge 表情)
而这个工具到底好不好用,大家可以去自行体验。
官网英文地址如下:https://alphagoteach.deepmind.com/
中文地址如下:https://alphagoteach.deepmind.com/zh-hans
附 David Silver 介绍 AlphaGo Master 的研发关键:
AlphaGo Master 为何如此厉害呢?
我们让 AlphaGo 跟自己对弈。这是基于强化学习的,我们已经不再拿人类的棋局给它学习了。AlphaGo 自己训练自己,自己从自己身上学习。通过强化学习的形式,它学到如何提高。
在棋局的每一回合,AlphaGo 运行火力全开(full power)的搜索以生成对落子的建议,即计划。当它选择这一步落子、实施、并到一个新回合时,会再一次运行搜索,仍然是基于策略网络和价值网络、火力全开的搜索,来生成下一步落子的计划,如此循环,直到一局棋结束。它会无数次重复这一过程,来产生海量训练数据。随后,我们用这些数据来训练新的神经网络。
Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目
在 12 月 12 日晚间,仅仅一天之后,又迎来另一条引爆媒体圈的消息:DeepMind 资深研究员的黄士杰宣布离开 AlphaGo 项目。
他在 Facebook 上发表临别感言:
AlphaGo 教学工具已经发布,这也是我 AlphaGo 研究之旅的美好句点。我已经转到 DeepMind 的其他专案,也将在深度学习与强化学习的 AI 研究上持续探索与精进。 感谢大家的关注,很高兴 AlphaGo 所带给大家的惊喜与美妙的时光。我也期待 AlphaGo 教学工具对围棋界所产生的积极作用。未来,请大家持续关注 DeepMind 与我们其他的专案。
提到黄士杰,最广为熟知的是在 2016 年 3 月,作为 AlphaGo 的「手」,对战李世石——他将 AlphaGo 的棋步下到棋盘,并将李世石的棋步再输到电脑上。
黄士杰本科毕业于中国台湾交通大学资讯工程专业,后于中国台湾师范大学资讯工程所获得硕士与博士学位,他本身也是业余六段的围棋棋手。黄士杰与 AlphaGo 的不解之缘,要从他的业余爱好——围棋说起。曾经获得中国台湾大专杯业余围棋冠军的他,也曾在校内创办过围棋社。而从术业方面,黄士杰的指导教授林顺喜,所在的实验室正是专研各类棋类程序的开发。黄士杰的博士论文就是以「应用于电脑围棋之蒙地卡罗树搜索法的新启发式演算法」。
在 2010 年,黄士杰以妻子为名所设计的系统 Erica 在日本举办的国际奥林匹克竞赛中击败了日本程序员尾岛阳儿所开发的 Zen(业余五段水平),荣获当年的金牌,轰动一时。
2011 年,他在加拿大阿尔伯塔大学担任一年的研究员后,2012 年被英国的 DeepMind 纳入麾下,此后一直在 AlphaGo 项目中进行探索与研究。
而他最近一次出现在大众的视野,是在上个月。11 月 10 日,在中国台湾中研院举办的「2017 年人工智能年会」上,黄士杰首次为大家讲述 AlphaGo 的研发过程,并且还透露新一代 AlphaGo Zero 的能力还没达到极限。
在演讲中他表示,AlphaGo 的研发过程,有四个时刻对他影响很大。
或许,这也是黄士杰选择退出 Alpha Go 项目的根本原因。
而他昨天正式宣布离开 AlphaGo 项目,正如他在十一月的演讲中所说,「AlphaGo 能走到这一步,我已经很满足,找到了收尾。」