【AlphaGo之父David Silver 在线答疑】 Zero能解决围棋史上最难问题

【新智元导读】DeepMind首席研究员、AlphaGo项目负责人David Silver和Julian Schrittwieser(AlphaGo Zero论文的第一作者之一)在Reddit回答网友提问,新智元第一时间为你送上。同时,我们再回顾2007年,Silver等人催生了AlphaGo的研究。

Reddit在前天发布了预告,DeepMind的David Silver和Julian Schrittwieser(见头图)会举行一场AMA——“Ask Me Anything”,回答网友提问。

David Silver和Julian Schrittwieser不是别人,正是DeepMind最新AlphaGo Zero论文的联合第一作者(AlphaGo Zero论文一共有3位第一作者,另一个是Karen Simonyan)。

其中,David Silver是DeepMind首席研究员(lead researcher),带领DeepMind强化学习研究小组,也是AlphaGo项目的负责人。可以说,Silver从AlphaGo诞生前起(这个后面会说),到现在的最强版本AlphaGo Zero,一直在用深度强化学习攻克围棋,用“AlphaGo之父”来形容他一点也不为过。

David Silver 1997年毕业于剑桥大学,获得了艾迪生威斯利奖(Addison-Wesley award)。随后,Silver与人共同创立了视频游戏公司Elixir Studios,担任CTO和首席程序员,也得了很多技术和创新奖。2004年,Silver重回学界,在阿尔伯塔大学攻读强化学习博士学位,在那里他与另一位同事合作,提出了第一个被用于9×9围棋程序的算法。2011年,Silver获得了英国皇家学会大学研究奖学金,随后成为伦敦大学学院的讲师。从DeepMind成立之初,Silver就担任顾问。2013年起,Silver全职加入DeepMind。

为什么AlphaGo Zero训练这么稳定?为何能在如此短时间里达到大师级水平?

问:为什么 AlphaGo Zero 的训练这么稳定?这是如何做到的?当DeepMind宣布它在尝试纯self-play训练时,这是每个人都想问的问题。因为深度强化学习是出了名的不稳定和容易遗忘,如果没有一个好的(基于模拟的)初始设定和大量的历史checkpoint,这两点加在一起会是灾难。但是如果我没有理解错的话,Zero 是从零开始的,你们没有使用任何历史checkpoint来作为防止遗忘或循环的对抗。但是这篇论文根本没有讨论这个问题,你们是怎么做到的?

David Silver:AlphaGo Zero没有使用典型的(model-free的)算法,例如策略梯度或Q-learning,而是使用了一种完全不同的方法。通过使用 AlphaGo search,我们极大地改进了策略和自我对弈的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。这比渐进的、基于梯度的策略改进(policy improvement)更稳定,而那样的策略改进可能会遗忘先前的改进。

问:你觉得AlphaGo能够解决被称为“史上最难死活题”的《围棋发阳论》第120题吗?(http://igohatsuyoron120.de/2015/0039.htm)

David Silver:我问了Fan Hui这个问题,他说,AlphaGo能够解决这个死活题,但更有趣的是问题,AlphaGo会找到书里的解决方法,还是得到没有任何人想到过的另一种解决方法?在AlphaGo下过的棋局中,我们已经看到过许多这种没有人想到过的新下法。

问:为什么在40天时就停止了训练呢?它的性能还可以更强,不是吗?如果你让它运行3个月,会发生什么?

David Silver:我想这是一个事关人力、资源和优先事项的问题。如果我们跑了3个月,我猜你还是会问,训练6个月的话会发生什么?

问:不读研也能在人工智能领域里取得成功吗?

Julian Schrittwieser:绝对没问题,我自己就只有计算机科学的学士学位。AI领域发展非常迅速,你能从读论文、做实验中学到很多。进入一家在机器学习领域有业务经验的公司也有很大帮助。

问:鉴于你们(DeepMind)和Facebook几乎在同一时间开始研究围棋的问题,你认为是什么优势让你们的系统能够在如此短的时间内达到大师级的标准?

David Silver:Facebook更侧重监督学习,他们的程序在当时是最强大的之一。我们选择更多地关注强化学习,因为我们认为这最终能带领我们超越人类的知识。我们最近的研究结果实际上表明,仅使用监督式的方法能够获得令人惊讶的高性能表现,但是,如果要远超人类水平,强化学习绝对是关键。

问:AlphaGo有开源的计划吗?

David Silver:我们在过去已经开源了许多代码,但这始终是一个复杂的过程。在AlphaGo情况下,不幸的是,它是一个非常非常复杂的代码库。

ICML 2017经典论文奖:催生了AlphaGo诞生的研究

为什么刚刚说“从AlphaGo诞生前起”?

ICML 2017 Test-of-Time 奖颁发给了 Sylvain Gelly(现在是苏黎世谷歌大脑团队的研究员)和 David Silver在2007年的工作:Combining Online and Offline Knowledge in UCT,提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。

这篇文章提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。而这一方法促成了AlphaGo的成功。

在 AlphaGo 取得成功的10多年前,在国际象棋中取得成功的经典树搜索(tree search)技术是计算机围棋程序的主要方法,但是这样的围棋程序只能达到人类玩家的弱业余水平。感谢蒙特卡罗树搜索——基于对游戏中一个位置的可能结果进行抽样,并利用这些模拟的结果逐步改进搜索树的一种新型搜索算法——计算机能够更深入地搜索游戏。这是很重要的一点,因为它使得程序可以纳入更少的人类知识,在程序中包含人类知识是一项很难正确地做到的任务。实际上,人类专家无法表达或没有想到的任何缺失的知识(missing knowledge)都可能对计算机评估游戏的位置时犯错误,最后导致满盘皆输。

2007年,Sylvain 和 David 通过探索将两种类型的知识结合来增强蒙特卡罗树搜索技术:(i)在线(online),下一步的决策取决于当前的位置,走下一步时使用当前的计算资源,(ii)离线(offline),学习过程完全发生在游戏开始之前,并被概括为一个可应用于游戏中所有可能位置的模型(尽管在学习过程中并未看到所有可能的位置) 。这些方法最终做成了MoGo程序,其表现比以前的围棋算法有所提高。

对于online部分,他们调整了一些简单的想法,即某些动作不一定相互依赖。例如,假如你预定去度假,酒店、航班和租车等的选择显然取决于你的目的地。但是,一旦决定了目的地,这些东西就(大部分)可以独立进行。围棋可以应用同样的想法,即可以将某些动作部分独立地估算出来,以获得尽管不精确,但非常快速的估计。当然,当时间允许时,也会分析确切的依赖关系。

对于离线知识(offline knowledge)的并入,他们探索了使用强化学习使计算机自己和自己对弈,探索学习一个位置值的近似(approximation of the position value)的影响,并在树搜索算法中加上这些知识。他们还研究了如何以类似的方式使用基于人类知识的专业棋谱。这种离线知识有两点帮助:首先,它有助于将程序集中在像在离线中学习到的好的下法;第二,当程序试图估计给定的位置值时,它有助于模拟更逼真的游戏。

这些改进在围棋的一种较小版本(9x9)的游戏中取得了很好的成果,甚至在一场展示比赛中打败了一名职业玩家,并且在完整的围棋比赛(19x19)中也达到了业余水平中的更高水平。2007年以来,我们已经看到许多来自世界各地的研究的快速进步(几乎每个月都有),这些研究使得围棋算法的进步达到高潮的是 AlphaGo(其本身也进行了许多创新)。

最重要的是,这些算法和技术不仅局限于在游戏中应用,还可以在许多领域中带来进步。David和Sylvain在10年前合作的研究所做的贡献,对于机器学习的许多进步来说都是非常重要的,它有助于我们每天的生活。这是他们当之无愧的奖项,我们向这两位作者表达衷心的祝贺。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | CNN入门材料:《解析卷积神经网络——深度学习实践手册》

514100
来自专栏新智元

【重磅】AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉”(附论文)

【新智元导读】 2017年刚开年,人机大战激战正酣:从围棋上孤独求败的 Master 到人脸识别的小度,现在,国外科学家宣布,机器已经在一对一的无限注德州扑克中...

27180
来自专栏CDA数据分析师

柯洁又输了,关于人工智能AlphaGo你需要知道些什么

原作者 Mirek Stanek 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 本月 23 日- 27 日,在乌镇主办“中国乌...

253100
来自专栏华章科技

投资版AlphaGo系统探讨

在AlphaGo战胜人类围棋顶尖高手之际,本文简单探讨了投资AlphaGo系统模块与训练数据以及可行性。并将其实现逻辑与郝伯特•西蒙过程理性算法比较。文章最后讨...

11040
来自专栏飞总聊IT

无知者的畏惧之AlphaGo Zero

题外话:鉴于我写的一些话题很容易就得罪了各大公司的PR们,导致包括起诉我,到我公司去告状等一系列的麻烦,以后我会避免直接提起公司或者产品的名字,以代号称呼。 1...

35090
来自专栏AI科技评论

重磅 | Facebook 田渊栋详解:深度学习如何进行游戏推理?

AI科技评论按:腾讯围棋 AI 程序“绝艺”(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军,一时间又引发了大家对 AI 和围棋的...

36770
来自专栏大数据文摘

电脑如何下棋?深入了解人工智能

601110
来自专栏机器人网

AlphaGo再下一城,是否代表已经诞生了真正的智能?

在刚刚结束的围棋人机第二场比赛中,AlphaGo执黑再下一城,原来对李世石抱有很大期望的围棋界人士信心受到重创,同样作为职业九段的选手,柯洁甚至在第二场比赛未结...

29550
来自专栏新智元

机器自学72小时堪比国际大师,深度学习到底有多厉害?

本文是雷锋网2015年9月份发出的文章,由知社学术圈王鹏编译,原标题《深度学习机器自学国际象棋72小时,媲美国际大师》,文章来源:MIT Technolog...

29070
来自专栏AI科技评论

业界 | 心力衰竭患者的福音,IBM 利用 AI 技术帮助病人提前确诊

近几十年,心脏病是导致美国人死亡的主要因素,所以患有心脏衰竭 (Heart Failure) 的美国人越来越多一点也不奇怪。预计到2030年,确诊患有心脏衰竭的...

29160

扫码关注云+社区

领取腾讯云代金券