围棋天团告负!1v5英雄“狗”背后的原理概括

今天,中国围棋峰会进行到了第四天,AlphaGo挑战两种未曾体验过的比赛:人机配对赛和1v5的团体赛。

对于全新的比赛形式,棋圣聂卫平与AlphaGo之父哈萨比斯谈了这样的问题:如果让柯洁与AlphaGo搭档,对阵另外一台AlphaGo,究竟哪一方更厉害?参与人机配对赛的古力九段,则在赛前表示:要努力配合好AlphaGo才能有希望。

不幸的是,配对赛战到中局,跟古力合作的AlphaGo不愿再配合他,径直就要投降……但古力被逆转得实在不甘,断然拒绝投降。于是,赢棋无望AlphaGo开始乱走,不到8手棋,古力便自己举牌认输。

双人配对战是围棋比赛中一种常规赛事,要求棋手对搭档要非常了解,并能顺利合作。人机配合这种形式不仅极为罕见,更别提对对方的棋风的了解。今早连笑一方执白,古力执黑,每方1小时,用时结束后将有1次1分钟读秒。比赛的精彩程度实属罕见!

然而虽然聂卫平对人机配合给予高度正面评价,但从比赛的过程中,人与机器的“合作”却出现相互牵制的场面。战到中局,古力的搭档提出投子,却遭到古力拒绝,但之后古力的搭档似乎就启动“Random”模式,频出“奇”招,古力挣扎无力之后,举牌投降。赛后,网友纷纷发表评论称,古力遇到了X队友,但也有人说,人类在这个时候体现出来的韧性,也许就是人与机器的差别,人类的伟大之处。

下午举行的中国队5人(陈耀烨、时越、芈昱廷、唐韦星、周睿羊)对战AlphaGo。至254手,AlphaGo执白中盘胜,人类天团告负。

至今日下午比赛结束,AlphaGo已经可以宣告世界第一的围棋霸主地位。AlphaGo是否杀死了围棋?DeepMind的AlphaGo之父哈萨比斯说AlphaGo战胜人类顶尖棋手李世石反而让围棋这项运动得到了普及,那场比赛吸引了2.8亿观众。(截止发稿时间,本次围棋峰会仅“人机大战”这个关键词在微博上已产生4.2亿的阅读和22万的讨论。)

他还认为AI和人类不是竞争关系,AI是工具能像望远镜一样帮助人类探索世界。对此,包括柯洁在内的几大围棋选手,也都表示了AlphaGo的“奇”招大开眼界,为提升他们自身的棋艺非常有帮助。今天,和大家一起重温AlphaGo背后的原理框架。

AlphaGo是如何工作的

在2016年3月9日到15日之间,在李世乭和AlphsGo之间进行了5场较量。李世乭是当今世界上排名第二的职业围棋选手。而AlphsGo则是Google子公司DeepMind开发的一款人工智能软件系统。Google公司为这次比赛设置了数额巨大的奖金:100万美元。最终,AlphaGo以4:1击败李世乭。

AlphaGo究竟是如何做到的呢?我唯一能够想到的就是这当中肯定涉及了机器学习。由于我本人是机器学习方向的博士,因此,我决定去一探究竟。

在这篇博客中,我会尽我所能地去阐述 AlphaGo 到底是如何工作的。

围棋 VS 国际象棋

围棋和国际象棋都是非常流行的棋类游戏。这两者之间有一些相似的地方,比如游戏都是由两人对弈,轮流进行;游戏当中没有任何涉及随机的环节(比如,掷骰子)。

在1997年,深蓝(IBM开发的一套系统,当时运行在一台超级计算机上)击败了加里·卡斯帕罗夫。这是有史以来,在锦标赛中,计算机程序第一次击败顶级人类选手。表面上,AlphaGO去年战胜李世乭和深蓝战胜加里·卡斯帕罗夫并无两样,除了AlphaGO是在20年之后战胜李世乭。这当中有什么区别呢?为了能够更好的探讨这个问题,我们先了解一下国际象棋和围棋的区别。

在国际象棋中,每位选手都有16个棋子,总共6中类型。每种类型的棋子有不同的移动方式。这个游戏的最终目标是抓住对手的王。然而,围棋是从一个空的棋盘开始。每一轮选手都要放下一个棋子在棋盘上。所有的棋子都遵循相同的规则。这个游戏的目标是尽可能多地占领地域。因此,围棋的规则比国际象棋更加简单。

尽管在比赛规则方面,围棋比国际象棋简单很多,但是,围棋的复杂程度要高很多。在比赛的每一个阶段,围棋手面临的选择都比国际象棋手面临的选择多很多(通常是围棋 250种选择 VS 国际象棋35种选择)。而且,围棋的持续时间也更加长:一般情况下围棋要持续150个回合 VS 国际象棋80个回合。

由于这个原因,围棋游戏比赛的可能性达到了10的761次方,而国际象棋仅仅为10的120次方。这两个数据都非常大:整个宇宙包含的原子个数也就“仅仅”为10的80次方。围棋是这两个游戏总最复杂的,这也就是为什么直到现在,让计算机来下围棋也是一件非常具有挑战性的事情。

游戏人工智能:为什么围棋那么具有挑战性

为了理解人工智能为什么能够玩儿游戏,比如国际象棋和围棋,我们必须理解什么是“游戏树”。游戏树中的每一个节点代表了游戏当中的某个状态,而每个树枝则是相关的抉择。根节点则代表了游戏的开始状态。下一层状态则是代表第一个回合过后可以选择的所有状态。对于简单的井字棋,所有的游戏状态可以通过以下这张图来形象地表示:

对于复杂的游戏来说,可视化表达一个游戏的所有状态几乎是不可能的。对于国际象棋来说,这棵树将含有10的120次方个节点,计算机根本没有办法存储这么多数据(你要知道整个宇宙都只有大概10的80次方个原子)。

知道了整棵树所有的节点对于人工智能游戏系统来说是非常有用的,因为这使得系统可以根据当前的游戏状态选择出最佳决策。极大极小值算法可以解决这个问题:在游戏的每一回合,人工智能系统选择最优的决策(这个决策最不可能导致最坏的场景)。

为了达到这个目的,它首先在树中找到和此时游戏状态相对应的节点。然后,选择最优的决策。这需要遍历整个游戏树,直到叶子节点。因此,极大极小值算法需要完整的游戏树。对于井字棋来说,这很有用,但是,对于国际象棋来说就没那么有用了,对于围棋就更加没用了。

深蓝是如何击败加里·卡斯帕罗夫的呢?

基本的原理是深蓝尽可能深地去搜索游戏树,通常是搜索未来的六步,或者更远。然后使用评估函数来评估当前层每个节点的优劣性。本质上来说,评估函数通过一个值代替了这个节点后面的子树。这样,深蓝就可以根据极大极小值算法进行:它将选择那个能走得更远,且最不可能达到最坏情况的决策。

评估函数依赖于某种形式的探索。当游戏接近于结束的时候,设计评估函数变得更加容易。这也很好理解:在游戏开始时,很难说出谁会赢,而在比赛结束时,有时候很容易就知道要赢的是谁(比如,就在“将”住对方前一步)。设计一个完美的评估函数或许是不可能的,但更好的评估函数可以带来更好的游戏效果。

决定AI实力的两个主要因素:

  1. 计算能力。更多的计算能力意味着可以更加深入地搜索游戏树,这样评估函数可以有更加好的效果。深蓝就是运行在一台超级计算机上面(也就是说它具有强大的计算能力)。
  2. 评估函数的质量。IBM投入了大量的人力来设计评估函数。维基百科对其相关描述如下所示:

评估函数被分解成了8000个不同的成分,大部分都是为特殊游戏状态设计的。在开幕式中,有超过4000个不同的游戏状态,70万个大师级别的游戏。 最终游戏数据库中包含了6个棋子,5个棋子或者更少棋子的棋盘。在第二场比赛之前,大师Joel Benjamin亲自对系统进行了调试。相关的库由三位大师Miguel Illescas, John Fedorowicz, 和 Nick de Firmian提供。

总的来说,尽管国际象棋的复杂性很高,深蓝却拥有强大的计算能力和精心设计的启发式策略。

同样的方式并不能够有效地应用在围棋中。围棋比国际象棋有着更多的走法(在每个状态有更多的下棋选择),而且游戏持续时间也更长。因此,很难通过搜索树的方式来完成足够深度的搜索。此外,设计围棋对应的评估函数也更加困难,相对于国际象棋而言。在围棋比赛即将结束的时候,往往会变得非常复杂。在写这篇博客的时候,维基百科的评价是这样的:

因此,对于围棋快要结束的状态,设计一个系统来完美地下棋几乎是不可能的,更不用说下整盘棋了。

鉴于最近AlphaGo最近的胜利,这种预测似乎有点不必要的悲观(也是错误的)。

蒙特卡罗树搜索来拯救围棋游戏

蒙特卡罗树搜索(MCTS)是搜索游戏树的另一种方法。这个思想是基于大量的游戏模拟。每次模拟的时候,都是从当前游戏状态出发,当游戏已经分出胜负了,就停止。一开始的时候,模拟是完全随机的:在每个游戏状态,所有的决策都是随机选择的,游戏双方都是这样的。在每次模拟的过程中,记录了相关数据,比如:游戏树的每个节点被访问了多少次,从这个节点出发总共赢了多少次。

这些数据在后来的模拟当中具有引导性作用(因此模拟将变得越来越不随机)。随着模拟次数的增多,根据这些数据也就越能选择出更好的决策。实验也表明,当模拟数量不断增加的时候,蒙特卡罗树搜索确实会收敛于最佳下棋策略。

蒙特卡罗树搜索面临着探索/稳定(不进行新事物的探索,而是使用之前探索得到的成果)的权衡:在一些模拟过后,它似乎开始过早地局限在那些似乎更能获胜的步法中。但是,在搜索过程中包含探索策略是非常好的,这也给整个搜索过程注入了随机因素。我们在之前的一篇博客中已经讨论过了探索/稳定之间的权衡,但是,是在不同的环境下。

关于蒙特卡罗树搜索有趣的是,它并不需要相关领域的知识或者专家设定的规则作为输入。深蓝系统需要使用非常复杂的评估函数,这个评估函数是由国际象棋专家设计的。但是,蒙特卡罗树搜索只需要遍历搜索树,并且记录相关数据即可。此外,采取这种方式,并不需要完整地遍历整棵搜索树,而且这也是不可能的。但是,为了获取更好的结果,需要大量地进行游戏模拟。

最强大的围棋人工只能系统(Fuego,Pachi,Zen和Crazy Stone)都依靠了蒙特卡罗树搜索。他们还依靠领域知识(由专家设计的规则),从而在蒙特卡罗模拟中更好地选择策略。所有四个系统都达到了强大的业余玩家水平。

通过学习变得专业

上面提到的实现围棋人工智能系统的方式依赖于某种形式的树搜索,并结合了人工定制的规则。然而,AlphaGo使用了大量的机器学习,从而避免使用人工定制的规则。它将三种不同的人工神经网络和树搜索方式结合在了一起。我将会详细阐述他们是怎么结合起来的,但是,我们还是先浏览一些背景知识。

  • 什么是机器学习

机器学习是一门设计算法的艺术与科学,它需要从数据当中进行学习。在监督式学习中(机器学习中的一种标准形式),通过不断地建立样本数据和它们对应的标签之间的关系来构建算法。比如,这个样本可能是围棋游戏当中的某一个游戏状态,而对应的训练标签则是这个状态最终会让这位棋手胜利还是失败的结果。训练的目标是可以让这个模型可以很好地在样本外得到泛化,也就是说,这个模型能够很好地对没有见到过的游戏状态做出很好的预测判断。

  • 神经网络

人工神经网络是机器学习算法中经常被用到的一种模型,无论是在监督式学习中,还是在非监督式学习中。这都要归功于它能够处理大量训练数据的能力。神经网络有多层神经网络节点组成,每一层包含了大量的参数。这些参数事先是按照相关的方式进行初始化的,然后在训练神经网络的过程当中对其不断地修正,从而使得人工神经网络模型的性能越来越好。在每一层神经网络包含了多个神经元节点。每一个节点都会接收来自上一层节点的输出。这些输入最终被按照一定的权重进行求和,然后,输入到一个非线性的激活函数。这种形式的设计是受到了生物神经网络的启发,这也就是为什么这个模型称之为人工神经网络。

  • 卷积神经网络

卷积神经网络是人工神经网络当中的一种形式,特别擅长于处理图像数据。卷积神经网络把图像作为输入。在卷积神经网络的每一层,会有大量的filter对图像进行处理。由于卷积神经网络把它限制在了filter与图像之间的卷积操作(这种操作对于图像数据非常有用),因此,卷积神经网络在图像数据上计算非常高效。这种类型的神经网络已经用来解决各种各样图像作为输入的实际问题,比如数字、人脸、牌照识别。

值得注意的是所有的操作都是前馈的:卷积神经网络的输出都是经过一系列的滤波操作得到的。没有涉及任何回馈或者搜索操作。一般来说,卷积神经网络非常适合于那些人类解决起来非常直观,并且非常快的问题,比如物体识别。它们并不适合于解决需要时间思考的问题,比如在迷宫里面找到出口。

图片来源:Google research。物体识别,卷积神经网络非常适合于解决这类问题。

(大多数)人都可以非常直观、快速地解决这类问题。

图片来源:Wikimedia。迷宫游戏。卷积神经网络并不擅长于解决此类问题:找到问题的解决方案需要使用搜索。对于人类而言,需要花费时间和思考才能解决问题。

  • 关于深度学习

最近,媒体对深度学习进行了大量的报道。这个术语通常指的是非监督式神经网络,并且训练是,逐渐地,一层一层地进行。AlphaGo使用的神经网络确实是深度神经网络(它有13层),但是,它们是在监督式学习,并且不是一层一层地进行训练的,而是对整个神经网络进行训练的。因此,严格地来说,AlphaGo并没有使用深度学习。

修正(2016年4月6号):在这边博客后面的评论中,LoïcMatthey和 Gary Cottrell告诉我,我在这个深度学习上有些误解。虽然,深度学习通常指的是那些非监督式学习神经网络,并且一层一层对其进行训练,但是,现在这个术语指的是任何具有很多层神经元的人工神经网络。因此,AlphaGo确实使用了深度学习。

  • AlphaGo

AlphaGo依赖于两种不同的组成成分:树搜索和卷积神经网络(用于引导树搜索)。这里的卷积神经网络有点类似于深蓝系统中的评估函数,不同的是,这里的卷积神经网络是通过学习得到了,并不是人工设计的。树搜索可以被看成是一个非常暴力直接的方式,然而,卷积神经网络却提供了玩儿游戏的智慧。

总的来说,这三个卷积神经网络是训练得到的,有两种类型:2个是策略神经网络,1个值神经网络。这两种类型的神经网络都是把当前游戏状态对应的图像(还包含了其它输入特征,我们这里的讨论暂时不涉及)作为输入。

值神经网络可以根据当前游戏状态计算出一个值:在当前状态下,黑棋选手最终获胜的概率是多少? 值神经网络的输入是整个棋盘,输出就是一个代表获胜概率的值。

策略神经网络则是根据当前游戏状态提供决策支持。每一个合理的决策都会有一个相应的概率值(也就是说这个神经网络的输出和棋盘中放棋子的个数一样)。更高概率的决策也就是更有可能获胜的选择。

  • 训练策略神经网络和值神经网络

策略神经网络的训练数据集包含了从专家级选手中获取的3千万个走法。这个数据集可以从KGS Go Server上获取。在测试数据集上可以达到57%的准确率。当我第一次读到这个论文的时候,对于能够完成这样的事情,我是非常吃惊的。我曾经以为很难使用卷积神经网络来解决游戏决策的问题。然而,事实是卷积神经网络非常完美地解决了这个问题,这也表明了大多数围棋的走法都是相当直观的,而不是经过深思熟虑的。

此外,还训练了一个相对较小的策略神经网络。它的准确率偏低,为24.2%。但是它的速度更快(为2微秒,而不是3毫秒:快了1500倍)。

  • 深度强化学习

直到现在,经过训练的策略神经网络都只是用来预测棋子的走法。但是,最终的目标并不是能够很好地预测棋子的走法。而是,得到一个可以最终赢得胜利的神经网络。因此,通过让策略神经网络相互下棋,并以最终的比赛结果作为训练目标。这就是所谓的强化学习,或者深度强化学习(因为这个神经网络非常的深);

在不使用人类下棋的训练数据,通过让系统相互对抗从而提升自己的性能是一个非常有用的技巧。这个技巧并不是什么新生事物,因为早在1992年的时候在TD-Gammon中就提到过了,由在IBM工作的Gerald Tesauro提出。TD-Gammon是一个玩儿西洋双陆棋的系统,在那个年代都已经达到了人类顶尖选手的水平。

  • 不使用搜索时AlphaGo的性能

紧接着,ApphaGo团队测试了策略神经网络的性能。在每一步中,它们总是选择策略神经网络给出的那个最有可能获胜的策略。通过这种方式,每走一步棋都需要3毫秒的时间。后来,他们用性能最佳的模型和当前最强大的围棋开源系统Pachi进行了较量。

Pachi的每一步都依赖于10万次蒙特卡罗树搜索计算。AlphaGo取得了所有游戏对战次数85%的胜利。我觉得这个结果非常的出色。一个快速的前馈架构(卷积神经网络)可以击败一个很大程度上依赖于搜索的系统。这也再一次表明围棋是一个直觉感非常强的游戏。同时也表明,并不需要大量的时间思考也可以玩儿好围棋。

  • 值神经网络

接着,值网络在3千万个游戏状态数据下进行训练,这些数据都来源于策略神经网络自我对抗的过程。值得注意的是,值神经网络是根据当前的游戏状态预测可能获胜的概率。因此,它跟评估函数有相似之处,唯一不同的是值网络是通过训练得到的,而不是设计出来的。

我们之前提到过在游戏开始初期设计出一个评估函数能准确判断获胜的概率是非常困难的,但是,在接近游戏尾声的时候,这会变得更加容易。值神经网络也有同样的现象:在游戏初期,值神经网络是随机选择一些操作的,但是,随着游戏的不断推进,值神经网络能够越来越准确地预测比赛的结果。无论是人类专家设计的评估函数,还是值神经网络都在比赛尾声的时候表现更好。这表明了这种现象并不是源于对人类的模仿,而是围棋本身某种机制的表现。

  • 把所有的部件联系在一起:树搜索

AlphaGo的树搜索流程和MCTS有些相似,但是,它是以三种神经网络,它们通过某种创新的方式结合在一起,为指导。我在这里讲不会阐述相关的具体细节,仅仅讨论整体的框架。

和深蓝相似,AlphaGo通过评估函数来获得当前状态的预估值。AlphaGo结合了值神经网络的输出和自我训练得到的策略神经网络结果。

当前状态值 = 值函数输出 + 策略神经网络模拟结果

这种设计形式非常有趣,因为它是直觉和思考的共同体。值神经网络代表直觉,然而,策略神经网络模拟结果代表思考。AlphaGo团队也尝试只使用神经网络输出,或者策略神经网络模拟结果,但是,这样的结果都比两者的结合要差。值得一提的是,似乎值神经网络的输出和策略神经网络模拟结果的重要性几乎相当。

策略神经网络用于引导树搜索。记住我们之前提到的探索/稳定之间的权衡。对于某个游戏状态,策略神经网络会对每一个合理的步法计算出对应的概率值。这个输出结果会除以模拟过程中在相同情况下同样采取这种走法的次数。这就弱化了经常选择的步法,迫使系统进行一定的探索。

对AlphaGo系统的内部原理说明到此为止。

  • AlphaGo有多厉害?

Elo 测评系统是用来评估选手能力的一套系统。不同的是,在测评系统中,选手双方都是作为预测比赛结束的依据,越高的测评值代表更高的获胜概率。

在2015年的一篇论文中分析了多种不同人工智能系统的优势,如下所示:

AlphaGo运行在48个CPU和8个GPU上面,而分布式AlphaGo则是运行在1202个CPU和176个GPU上面。

我们发现额外的计算能力可以得到更好的性能。不幸的是,并没有任何对AlphaGo的Elo测试是在单个CPU上面进行的。

在这篇论文发表的时候,分布式的AlphaGo在五场比赛中击败了Fan Hui。Fan Hui当时的Elo 测评是2908.

在2015年3月15日,分布式AlphaGo以4比1的成绩战胜了李世乭,而他目前的Elo测评是3520。分布式AlphaGo目前的Elo 测评是3586。也就是说,在2015年,分布式AlphaGo并不大可能战胜李世乭。

世界上目前就只有一位选手的Elo测评比李世乭高,那就是Ke Jie,他的测评是3621。

这些结果有什么意义呢?

表面上,围棋和国际象棋对于人工智能来说都是巨大的挑战:决策的判断非常困难,搜索空间非常大。

在国际象棋中,通过使用相对直接的方案是可以击败人类顶级棋手的。这就包括了:粗暴的搜索和由国际象棋专家设计的探索式策略。然而,探索式策略必须由人类专家来设计是非常大的一个缺陷。这直接导致了这种形式的人工智能设计不可能再向前推进人工智能的发展:每一个新的问题,都需要设计新的探索式策略。此外,国际象棋的游戏状态空间非常庞大,但是却可以采取简单粗暴地方式进行追踪,是一个非常幸运的偶然。

由于围棋的复杂性,并不能采取深蓝使用的方式来处理围棋当中的问题。从而提出了MCTS。然而,这仍然并不是一个完美的解决方式:单纯的MCTS并不使用任何领域的知识。也就是说仅仅使用MCTS的围棋程序在棋局开始的时候完全不知道该如何下棋。而且,它也无法从经历中学习。

AlphaGo系统中值得注意的是它包含了一个学习模块,而不是人工设计的探索策略。通过自己跟自己下棋,AlphaGo可以自己不断地变得更善于下棋。这种形式的设计表明,AlphaGo的设计方式可以应用于其它类型的问题。

另外一个值得注意的点是尽管AlphaGo拥有强大的计算能力(可能比深蓝还要大),AlphaGo比深蓝的学习速度要慢几千倍。这是因为策略神经网络和值神经网络都需要大量的计算。但是,用速度换精确度是值得的:获得了更加精确的走法,最终可以有更大的胜算。

我认为AlphaGo战胜李世乭本身并没有什么意义。毕竟,AlphaGo的胜利是依赖于计算机强大的计算能力。如果没有那么多CPU和GPU,AlphaGo可能会战败。这场比赛值得关注的是AlphaGo系统采取的设计方式,它是未来的希望。

  • 对于未来的一些看法

AlphaGo采用的方式似乎有些不是那么令人满意,这也给未来留下了很大的提升空间:

  • „AlphaGo依赖于大量的人类玩家数据。幸运的是,能够获取到大量的人类玩家参与围棋比赛的数据,但是,对于其他类型的人工智能问题,就不一定能获取到这样数量级的数据了。此外,很有可能AlphaGo在某种程度上更加偏向于模仿一名人类玩家。如果,让它自己跟自己玩儿(通过自己跟自己下棋来提升自己),这可能会产生全新的策略(与现有的策略准则不同)。TD-Gammon就是这样的。请参考维基百科对于TD-Gammon的描述:TD-Gammon发现了了人类从来没有使用过的策略,这推进了西洋双陆棋在理论上的发展。
  • „ AlphaGo并不是端对端地进行训练。AlphaGo的工作流程要经历两个截然不同的阶段:神经网络训练和树搜索。神经网络的训练是独立于树搜索阶段的。直观上,把两者放在一起进行训练是可能的,而且这或许会使得学习和搜索可以更好地协同工作。
  • 有一大堆参数需要设置。在比赛阶段需要对系统进行相关参数的调整。至于为什么有这个必要性,还不是很清楚。但是,如果能够让系统自行学习,然后调整这些参数将会非常好(如果这能带来更好的性能),而不是人为地对其进行调整。

  • 下一步做什么呢?

DeepMind团队会尝试着去解决什么类型的人工智能问题呢?很难说。电脑游戏绝对是一个很有趣的方向,这源于它的复杂性和实用性。事实上,DeepMind已经教过计算机自己玩儿Atari游戏。因此,游戏人工智能将会是下一个要解决的问题。

原文链接: https://www.tastehit.com/blog/google-deepmind-alphago-how-it-works/

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

世界杯押注还得看技术流,这个预测AI把赔率也算上了

782
来自专栏用户2442861的专栏

阿尔法狗是怎么用机器学习做决策的

雷锋网注:本文作者许铁, 法国巴黎高师物理硕士 ,以色列理工大学(以色列85%科技创业人才的摇篮, 计算机科学享誉全球)计算神经科学博士,巡洋舰科技有限公司创...

1281
来自专栏PaddlePaddle

实操|如何进阶深度学习工程师(下篇)

这里所定义的中阶选手,是深度学习理论基础扎实,实操方面尝试扩展深度学习更多应用场景的侠客。由此,从初阶→中阶,基本流程保持不变,变化的是每个步骤的深入程度。

1382
来自专栏专知

【观点】AlphaGo Zero再掀波澜,看各位AI业界大拿如何点评

【导读】Google DeepMind在Nature上发表最新论文AlphaGo Zero,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识...

2964
来自专栏机器学习人工学weekly

AlphaZero-机器学习人工学快报

大神David Silver(AlphoGo architecture,难道没去NIPS?)今天往arxiv上扔了篇文章,Mastering Chess and...

37610
来自专栏互联网杂技

AlphaGo的算法等技术分析

最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。 ? AlphaGo这个系统主要由几个部分组成: 1、走棋网络(Policy N...

4028
来自专栏新智元

AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(一)

? 李理,出门问问NLP工程师 编者按:李世石与Google Deepmind AlphaGo对战在即,围棋界和人工智能界对结果各有预测,但对于程序员来说,...

4065
来自专栏机器人网

手把手教你三天训练出自己的AI围棋大师

过去一年,AI领域最exciting的进展可能要数AlphaGo的不断进步。AlphaGo Zero不仅提出了新的网络架构,也带来了一些新的神经网络训练技巧。 ...

4026
来自专栏java达人

AlphaGo:黑色方碑?

围棋一年前还通常被认为是10年内都无法被人工智能攻克的防线,然而转眼就变成了马其诺防线了。那么这场人机大战到底意味着什么?人类已经打开了潘多拉魔盒吗? Al...

20010
来自专栏AI科技评论

李开复、马少平、周志华、田渊栋都是怎么看AlphaGo Zero的?

AI科技评论消息,北京时间10月19日凌晨,Deepmind在Nature上发布论文《Mastering the game of Go without huma...

3697

扫码关注云+社区

领取腾讯云代金券