【AlphaGo之父David Silver 在线答疑】 Zero能解决围棋史上最难问题

新智元

发布于 2018-03-21 16:40:51

1.2K0

发布于 2018-03-21 16:40:51

文章被收录于专栏：新智元

【新智元导读】DeepMind首席研究员、AlphaGo项目负责人David Silver和Julian Schrittwieser（AlphaGo Zero论文的第一作者之一）在Reddit回答网友提问，新智元第一时间为你送上。同时，我们再回顾2007年，Silver等人催生了AlphaGo的研究。

Reddit在前天发布了预告，DeepMind的David Silver和Julian Schrittwieser（见头图）会举行一场AMA——“Ask Me Anything”，回答网友提问。

David Silver和Julian Schrittwieser不是别人，正是DeepMind最新AlphaGo Zero论文的联合第一作者（AlphaGo Zero论文一共有3位第一作者，另一个是Karen Simonyan）。

其中，David Silver是DeepMind首席研究员（lead researcher），带领DeepMind强化学习研究小组，也是AlphaGo项目的负责人。可以说，Silver从AlphaGo诞生前起（这个后面会说），到现在的最强版本AlphaGo Zero，一直在用深度强化学习攻克围棋，用“AlphaGo之父”来形容他一点也不为过。

David Silver 1997年毕业于剑桥大学，获得了艾迪生威斯利奖（Addison-Wesley award）。随后，Silver与人共同创立了视频游戏公司Elixir Studios，担任CTO和首席程序员，也得了很多技术和创新奖。2004年，Silver重回学界，在阿尔伯塔大学攻读强化学习博士学位，在那里他与另一位同事合作，提出了第一个被用于9×9围棋程序的算法。2011年，Silver获得了英国皇家学会大学研究奖学金，随后成为伦敦大学学院的讲师。从DeepMind成立之初，Silver就担任顾问。2013年起，Silver全职加入DeepMind。

为什么AlphaGo Zero训练这么稳定？为何能在如此短时间里达到大师级水平？

问：为什么 AlphaGo Zero 的训练这么稳定？这是如何做到的？当DeepMind宣布它在尝试纯self-play训练时，这是每个人都想问的问题。因为深度强化学习是出了名的不稳定和容易遗忘，如果没有一个好的（基于模拟的）初始设定和大量的历史checkpoint，这两点加在一起会是灾难。但是如果我没有理解错的话，Zero 是从零开始的，你们没有使用任何历史checkpoint来作为防止遗忘或循环的对抗。但是这篇论文根本没有讨论这个问题，你们是怎么做到的？

David Silver：AlphaGo Zero没有使用典型的（model-free的）算法，例如策略梯度或Q-learning，而是使用了一种完全不同的方法。通过使用 AlphaGo search，我们极大地改进了策略和自我对弈的结果，然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络（policy+value network）。这比渐进的、基于梯度的策略改进（policy improvement）更稳定，而那样的策略改进可能会遗忘先前的改进。

问：你觉得AlphaGo能够解决被称为“史上最难死活题”的《围棋发阳论》第120题吗？（http://igohatsuyoron120.de/2015/0039.htm）

David Silver：我问了Fan Hui这个问题，他说，AlphaGo能够解决这个死活题，但更有趣的是问题，AlphaGo会找到书里的解决方法，还是得到没有任何人想到过的另一种解决方法？在AlphaGo下过的棋局中，我们已经看到过许多这种没有人想到过的新下法。

问：为什么在40天时就停止了训练呢？它的性能还可以更强，不是吗？如果你让它运行3个月，会发生什么?

David Silver：我想这是一个事关人力、资源和优先事项的问题。如果我们跑了3个月，我猜你还是会问，训练6个月的话会发生什么？

问：不读研也能在人工智能领域里取得成功吗？

Julian Schrittwieser：绝对没问题，我自己就只有计算机科学的学士学位。AI领域发展非常迅速，你能从读论文、做实验中学到很多。进入一家在机器学习领域有业务经验的公司也有很大帮助。

问：鉴于你们（DeepMind）和Facebook几乎在同一时间开始研究围棋的问题，你认为是什么优势让你们的系统能够在如此短的时间内达到大师级的标准？

David Silver：Facebook更侧重监督学习，他们的程序在当时是最强大的之一。我们选择更多地关注强化学习，因为我们认为这最终能带领我们超越人类的知识。我们最近的研究结果实际上表明，仅使用监督式的方法能够获得令人惊讶的高性能表现，但是，如果要远超人类水平，强化学习绝对是关键。

问：AlphaGo有开源的计划吗？

David Silver：我们在过去已经开源了许多代码，但这始终是一个复杂的过程。在AlphaGo情况下，不幸的是，它是一个非常非常复杂的代码库。

ICML 2017经典论文奖：催生了AlphaGo诞生的研究

为什么刚刚说“从AlphaGo诞生前起”？

ICML 2017 Test-of-Time 奖颁发给了 Sylvain Gelly（现在是苏黎世谷歌大脑团队的研究员）和 David Silver在2007年的工作：Combining Online and Offline Knowledge in UCT，提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。

这篇文章提出将离线学习或在线创建的知识纳入搜索算法以增加其有效性的新方法。而这一方法促成了AlphaGo的成功。

在 AlphaGo 取得成功的10多年前，在国际象棋中取得成功的经典树搜索（tree search）技术是计算机围棋程序的主要方法，但是这样的围棋程序只能达到人类玩家的弱业余水平。感谢蒙特卡罗树搜索——基于对游戏中一个位置的可能结果进行抽样，并利用这些模拟的结果逐步改进搜索树的一种新型搜索算法——计算机能够更深入地搜索游戏。这是很重要的一点，因为它使得程序可以纳入更少的人类知识，在程序中包含人类知识是一项很难正确地做到的任务。实际上，人类专家无法表达或没有想到的任何缺失的知识（missing knowledge）都可能对计算机评估游戏的位置时犯错误，最后导致满盘皆输。

2007年，Sylvain 和 David 通过探索将两种类型的知识结合来增强蒙特卡罗树搜索技术：（i）在线（online），下一步的决策取决于当前的位置，走下一步时使用当前的计算资源，（ii）离线（offline），学习过程完全发生在游戏开始之前，并被概括为一个可应用于游戏中所有可能位置的模型（尽管在学习过程中并未看到所有可能的位置）。这些方法最终做成了MoGo程序，其表现比以前的围棋算法有所提高。

对于online部分，他们调整了一些简单的想法，即某些动作不一定相互依赖。例如，假如你预定去度假，酒店、航班和租车等的选择显然取决于你的目的地。但是，一旦决定了目的地，这些东西就（大部分）可以独立进行。围棋可以应用同样的想法，即可以将某些动作部分独立地估算出来，以获得尽管不精确，但非常快速的估计。当然，当时间允许时，也会分析确切的依赖关系。

对于离线知识（offline knowledge）的并入，他们探索了使用强化学习使计算机自己和自己对弈，探索学习一个位置值的近似（approximation of the position value）的影响，并在树搜索算法中加上这些知识。他们还研究了如何以类似的方式使用基于人类知识的专业棋谱。这种离线知识有两点帮助：首先，它有助于将程序集中在像在离线中学习到的好的下法；第二，当程序试图估计给定的位置值时，它有助于模拟更逼真的游戏。

这些改进在围棋的一种较小版本（9x9）的游戏中取得了很好的成果，甚至在一场展示比赛中打败了一名职业玩家，并且在完整的围棋比赛（19x19）中也达到了业余水平中的更高水平。2007年以来，我们已经看到许多来自世界各地的研究的快速进步（几乎每个月都有），这些研究使得围棋算法的进步达到高潮的是 AlphaGo（其本身也进行了许多创新）。

最重要的是，这些算法和技术不仅局限于在游戏中应用，还可以在许多领域中带来进步。David和Sylvain在10年前合作的研究所做的贡献，对于机器学习的许多进步来说都是非常重要的，它有助于我们每天的生活。这是他们当之无愧的奖项，我们向这两位作者表达衷心的祝贺。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-10-20，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能