展开

关键词

AlphaGo介绍

除以N是赋予其随机性,就是不要陷入局部走法,给其他位置以一定的机会AlphaGo Zero 的改进完全不需要人类棋谱,采用自己和自己下棋的方式学习。

8430

AlphaGo Zero 初探

Deepmind 最近发布了 AlphaGo 的最新版本 AlphaGo Zero 的论文,AlphaGo 不再需要学习人类的经验,而是可以自己学习如何下围棋,而且最新的 Zero 可以打败之前的版本。 围棋用暴力的方式是太低效了,所以 AlphaGo 也尝试像人一样用直觉来缩小选择的范围。第一个版本用两个卷积神经网络共同合作来决定策略:? 除了两个神经网络,AlphaGo 还采用 Monte Carlo Tree Search 算法来高效地读取 move tree:? AlphaGo Zero 和前面版本的主要区别是,把两个神经网络合二为一。 而且不再是学习人类的棋局例子,而是在一无所知的基础上,通过和自己对决来学习下围棋。?? en.wikipedia.orgwikiAlphaGo https:deepmind.comresearchalphago https:machinelearnings.counderstanding-alphago

55450
  • 广告
    关闭

    腾讯云前端性能优化大赛

    首屏耗时优化比拼,赢千元大奖

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    浅读AlphaGo zero

    然后就可以进行下棋,并成功打败他的哥哥AlphaGo Lee和AlphaGo Fan. 相关数据:训练了3天,进行了4.9百万次对弈。 0.4s计算每次的落子。 二、训练过程中所需要的信息AlphaGo Zero在其训练程序中明确或隐含地使用的领域知识或其蒙特卡罗树搜索; 这些是需要替代的知识项目AlphaGo Zero学习不同的(交替马尔科夫)博弈:1、完善的围棋规则信息 Play:在搜索结束时,AlphaGo Zero会选择一个在根中落子,与其指数访问计数成比例,其中τ是控制探测水平的参数。 如果AlphaGo Zero的根值和最佳子值低于阈值,则会退出。 与AlphaGo Fan和AlphaGo Lee的MCTS相比,主要区别在于AlphaGo Zero不使用任何推出;它使用单个神经网络代替单独的策略和价值网络;叶节点总是扩展,而不是使用动态扩展;每个搜索线程只是等待神经网络评估

    50870

    UAI AlphaGo 系列—— AlphaGo 的确是一个大事件

    为了庆祝 5 月 23 日 AlphaGo 中国赛,UAI 推荐一篇有趣且有深度的思考文章。 为了解释其工作机制,我们先描述 AlphaGo 系统,主要内容参见 AlphaGo 团队发表于今年一月份的 论文(系统的细节和 AlphaGo 与李世石的比赛有不同,但是主要的原理是一致的)。 为了超越业余水平,AlphaGo 需要一种衡量棋盘状态的方法。为了越过这个障碍,设计者们研究出了 AlphaGo 的核心想法——将策略网络和自身进行对弈,来获得一个给定的棋盘状态是否为胜利的概率估计。 (实际上,AlphaGo 使用了一个更加复杂的实现方式)接着,AlphaGo 将这个观点和对很多可能的走子过程的搜索进行组合,将搜索放在策略网络认为更加可能的路径上。 然后,策略网络帮助 AlphaGo 构建了一个刻画了非常类似于人类棋手所谓的关于不同棋盘状态的直觉的概念。按照这样的方式,AlphaGo 比 Deep Blue 更具突破性。

    22940

    起底AlphaGo历史

    AlphaGo Master的水平。 五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段。这个版本名字叫AlphaGo Lee: 这个4:1胜李世石的版本相较 AlphaGo Fan 等级分大约提高了 600 分。 6 AlphaGo Zero战胜AlphaGo MasterAlphaGo Zero: 这个版本相较 AlphaGo Master 等级分又提升了大约 330 分。 AlphaGo Zero 和 AlphaGo Master 相比,主要改动有两处: 1) 直接使用棋子位置做神经网络输入(下面会进一步叙述),不再使用人工特征 (AlphaGo LeeMasterFan AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。

    56440

    AlphaGo:黑色方碑?

    AlphaGo的胜利是否意味着人工智能的黑色方碑(图1, 请参见电影《2001:太空漫游》)已经出现? 本文将从AlphaGo的原理入手逐步探讨这个问题。 ? AlphaGo从大量人类经验中学到了大量的相关性的规律(概率函数),但是确没有学习到任何的因果性规律。这应该是AlphaGo和人类棋手最本质的区别了。 3.AlphaGo超越了人类的智能了吗?   从这个意义上来说,AlphaGo在围棋上超越人类智能应该还没有实现。 4.AlphaGo会故意输给李世石吗?   而且AlphaGo也能够不段的学习新的经验,神之一手可能战胜AlphaGo一次,但下一次就不见得有机会了。AlphaGo就如同练就了针对棋力的吸星大法,人类对他的挑战只会越来约困难。 这就使得AlphaGo的方法面对这些问题,可能是完全无法解决的。 7.AlphaGo到底意味着什么?

    308100

    AlphaGo单挑五虎将获胜,连笑配对AlphaGo笑到最后

    上午 10:59 分,连笑八段联手 AlphaGo 执白战胜古力九段与 AlphaGo 的组合,赢得了史上首次人机配对赛。 而在下午 16::32 时,五位世界冠军组成的团队在与 AlphaGo 的对决中收官阶段认输,团体赛告于段落。?前所未有的人机赛制 今天 AlphaGo 与人类展开了两场比赛。 在配对赛中,由「古力九段+AlphaGo」对战「连笑八段+AlphaGo」。比赛中,人类棋手除了要理解 AlphaGo 的风格,还要与之合作。 行至 200 手,全场占据优势的黑棋一方出现了分歧,AlphaGo 的代表举出了认输的牌子,但遭到了古力的拒绝,比赛继续(据古力介绍,AlphaGo 认输,人类有权拒绝,但如果人类选手认输,AlphaGo 获胜方连笑在接受采访时称开局与 AlphaGo 配合有点困难,把队友带入了一条不归路,自己的队友不如对方的 AlphaGo 稳健,感觉很像人类。??团体赛:相谈棋五人联手未撼动 AlphaGo?

    47790

    【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线

    同时每步棋AlphaGo都会给出自己的胜率分析,希望AlphaGo对围棋的独特理解可以给我们一些启发。 2.所有盘面都有AlphaGo评价的胜率,以及AlphaGo推荐的下法。3.所有AlphaGo的胜率与推荐下法,AlphaGo都思考将近10分钟(1000万次模拟)。 ▌AlphaGoAlphaGo zero、AlphaZero----2016年Google在Nature上发表基于深度学习算法的围棋程序AlphaGoAlphaGo在古老的围棋比赛中以4:1的高分击败了世界大师级冠军李世石 AlphaGo Lee、仅用40天就击败 AlphaGo Master的围棋人工智能。 从无知幼儿开始,我们新的程序—AlphaGo Zero达到了超级专家的水平,在与之前开发的AlphaGo(指代和李世石对弈的AlphaGo)的对弈中,取得了100-0的完胜。

    41540

    AlphaGo 的下一步计划

    未来围棋峰会上的柯洁我们一直坚信人工智能的潜力将会帮助社会发现新的知识并从中获益,AlphaGo 已经印证这个事件的可能性。 比之竞争者,倒不如说 AlphaGo 已经成为启发棋手在这个历经 3 千多年历史的比赛中尝试全新策略并发掘出新的思路的工具。 在围棋诞生的国度,为期一周的与世界最优秀的棋手的激动人心的系列比赛,已经成为 AlphaGo 参与的最高荣誉。所以,未来围棋峰会将是我们和 AlphaGo 的最后对决。 这个工具会展示 AlphaGo 中对围棋位置的分析,给出程序如何思考的洞察,非常希望能够给所有的围棋选手和爱好者从 AlphaGo 的视角来看比赛的机会。 我们特别荣幸地邀请伟大的柯杰成为首位合作者,他已经同意与我们一起来研究他与 AlphaGo 的比赛。我们很期待听到对他对这些精彩的比赛的感悟,并能够分享出 AlphaGo 自身的分析。?----

    25240

    开发 | One-Page AlphaGo——十分钟看懂 AlphaGo 的核心算法!

    本文是对《自然》上发表的知名论文“Mastering the game of Go with deep neural networks and tree search”进行的总结,对 AlphaGo 的算法结构进行了概括 到这就结束了,以上就是战胜了人类的 AlphaGo 算法!“12小时零基础入门深度学习”,欢迎来玩! “AlphaGo的划时代意义在于它不仅仅缩短了机器与人的智能距离,还将颠覆人与人智商差异的感知 。” 这是在去年AlphaGo战胜李世石后, 有业内人士如是说。

    458100

    自我对弈的 AlphaGo Zero

    AlphaGo Zero 已经出来一段时间了。本来 AlphaGo Zero 一出来就应该写科普的,但自己实在懒。等到现在才更新。? AlphaGo Zero 最大的亮点是:完全没有利用人类知识,就能够获得比之前版本更强大的棋力。 搜索结束后,MCTS 选择根节点的质量度最高的子节点作为 AlphaGo 的着法。2. 网络结构和训练方法 AlphaGo Zero 的网络结构和之前的版本不同。 AlphaGo Zero 的网络结构采用了 resnet 网络,而之前的版本则采用了传统的 CNN 网络。 3.2 不同版本 AlphaGo 的比较。 从下图可以看出,不用人类知识的 AlphaGo Zero 超过之前的版本。

    28890

    LeCun:不要夸大AlphaGo

    现在你能看到所有AI的本领——自动驾驶汽车也好,医学影像中的落地也罢,即使是AlphaGo在围棋比赛中拿到世界第一——这些都是非常窄层面上的智能,是在某些可以大量收集数据情况中为了特定功能专门训练的。 我不是想将DeepMind在AlphaGo上的研究影响往小了说,而认为是人们将AlphaGo的发展解读为机器智力发展的重要过程是不妥的。这两者完全不是一回事。 问: DeepMind在AlphaGo中创造的算法也可以应用到其他科学研究中,比如蛋白质折叠和药物研究。你认为在其他地方应用这种研究容易吗?LeCun: AlphaGo中用的是增强学习。 AlphaGo Zero在几天内下了数百万盘围棋,可能比人类在发明围棋以来的大师下得还要多。

    43360

    投资版AlphaGo系统探讨

    AlphaGo战胜人类围棋顶尖高手之际,本文简单探讨了投资AlphaGo系统模块与训练数据以及可行性。并将其实现逻辑与郝伯特•西蒙过程理性算法比较。 文章最后讨论了如何应用投资AlphaGo系统为人类服务。细想一下,围棋和投资有很多类似的地方,围棋是在和对手博弈,投资可看作是在和市场博弈。 虽然现在AlphaGo系统做的还是人类算法的模拟仿真。但想想也不用太担心,围棋的规则是固定的,但金融的规则可不是固定的。 还好我们还有杀手锏,如熔断机制,很轻松就可以碾压AlphaGo系统,让其做的所有训练无效。另外如何界定数据边界,信息收集成本等问题,都可以让我们不用太担心投资版AlphaGo系统。 最后,我们来探讨如何更好的使用AlphaGo系统为人类服务。李喆六段在评价李世石两盘棋说:“AlphaGo给出选点的思维方式与人类不同,但我们却可以用人类的方式去理解它,这是一件多么美妙的事情。”

    24740

    我是黄士杰,AlphaGo人肉臂

    这个时候,AlphaGo的训练还是在GPU上完成的。时间再过一年。2015年6月,AlphaGo拥有了更强大、分布式的搜索技术支持。 这个时候的AlphaGo,可以算出后续40-60步棋。(量子位注:击败柯洁的最新版AlphaGo,也只算到50步棋就停止了。) 樊麾当时甚至跟AlphaGo团队表示,他跟AlphaGo的下棋时间,只需要一个小时就够了。当时黄士杰反复跟樊麾说AlphaGo很厉害。但樊麾根本听不进去。? 3月9日-15日,AlphaGo和李世乭大战五场。最终AlphaGo以4:1取得胜利。当时坐在李世乭对面,代替AlphaGo落子的还是黄士杰。? 从开始到现在,黄士杰看着AlphaGo的出生、成长、名满天下。黄士杰一直以AlphaGo人肉臂的样子出现,像一个机器人一样。?但黄士杰,远远不止是AlphaGo的人肉臂。

    54360

    专栏 | AlphaGo Zero:笔记与伪代码

    2 伪代码我们提供了一个用于训练 AlphaGo Zero 的简要的概念性的伪代码,有助于你更轻松地理解 AlphaGo Zero 的原理;参见后文算法 1。 与 AlphaGo 相比,AlphaGo Zero 的特性有:1. 它是从随机对弈学习的,使用了自我对弈强化学习,没有使用人类数据或监督;2. AlphaGo Zero 不仅是一种启发式搜索算法。 AlphaGo 达到了超人类的水平。也许可以确定职业棋手已经开发出了一些有效的策略。但是,AlphaGo 并不需要模仿职业棋手的下法。因此它也不需要正确预测他们的走子。 因此,我们不能直接将 AlphaGo 算法应用到这些应用上。另一方面,AlphaGo 算法,尤其是其底层的技术(即深度学习、强化学习和蒙特卡洛树搜索),则有很多应用。

    62970

    AlphaGo的算法等技术分析

    最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。? 我们的DarkForest和AlphaGo同样是用4搭建的系统。 有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。 AlphaGo的估值网络可以说是锦上添花的部分,从Fig 2(b)和Extended Table 7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d-8d的水平。 他们能做出AlphaGo并享有现在的荣誉,是实至名归的。从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。

    58280

    无知者的畏惧之AlphaGo Zero

    1这几天来被刷朋友圈的,无疑是这个新来的AlphaGo Zero,有被翻译成阿尔法元的说法。大概是觉得元比较酷,代表了某种东西的元年。这个新的AlphaGo Zero很了不得,了不得体现在很多创新上。 这种畏惧到纽约时报上,就成了下面这幅图:2那么,AlphaGo Zero到底说明了什么?我的机器学习是体育老师教的,所以我就只能就着体育老师教我的水平来试图讲一讲。 而AlphaGo实际上是把围棋当做了从数据,包括人类棋谱里面,用深度学习的方式来解决的问题。通过学习人类棋谱和自己的对弈,AlphaGo的蒙特卡洛树的选择更加的高校和精准。 而AlphaGo Zero则是在这个评估函数上做了文章,通过使用reinforcement learning的方式来学启发式函数。这个做法在机器学习里应该是没有人做过的。 人类不需要拍脑袋去创建评估函数了,这恐怕是AlphaGo Zero巨大的贡献。会让启发式搜索的应用范围变得异常的宽广。除此之外呢?围棋的搜索空间是有结构的,算是个发现吧。

    46790

    仅用3天,AlphaGo Zero就凭借自学以100:0击败AlphaGo,柯洁表示人类太多余了

    AlphaGo Zero3天时间就能达到击败李世石的AlphaGo Lee的水平,21天可以达到了之前击败柯洁的AlphaGo Master的水平。 值得注意的是,AlphaGo Zero的自我训练强化时间更短,AlphaGo Zero只需要在4个TPU上花三天时间,自己左右互搏490万棋局。 对于AlphaGo Zero来说,3天时间就能达到了击败李世石的AlphaGo Lee的水平,21天可以达到了之前击败柯洁的AlphaGo Master的水平。? AlphaGo Zero给我们的启发Deepmind的论文中也公布了AlphaGo Zero的一些技术细节,现在也有不少文章分享了相关的技术原理,镁客君简单的整理一下,其实主要在于AlphaGo Zero 回顾AlphaGo成名史聊聊AlphaGo Zero的下一步出生于2014年的AlphaGo,2015年就击败了樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序。

    32100

    心跳之局:AlphaGo强大,柯洁伟大!

    二、回归理性理性一点说,柯洁对战 Google AlphaGo 还不到跨物种对决的程度。单论技术,擅长 AI 技艺的 AlphaGo 团队与擅长围棋技艺的柯洁一样伟大。 AlphaGo 团队暂时还没公开新论文,但从昨天乌镇现场的技术讲解看,AlphaGo 的基本技术框架并没有翻天覆地的变化。策略网络、价值网络、搜索等都还在。 以去年 AlphaGo 论文的技术公开程度,似乎还不足以制造出与 AlphaGo 水平相当的围棋程序。我感觉腾讯绝艺不仅仅是个积累时间的问题。 绝艺在很多棋的风格上与 AlphaGo 差距比较大,比如有人说绝艺好杀,这可能是绝艺与 AlphaGo 使用的初始数据集不同,也可能是绝艺与 AlphaGo 在具体算法的调参,甚至算法实现层面有不同。 AlphaGo 要不要干脆开源,给大家一个惊喜?当然,也许 AlphaGo 的下一篇论文,就足以支持绝艺等软件在棋力上更上一层楼了。

    435110

    读《Nature》论文,看AlphaGo养成

    这篇文章主要是阅读《Nature》论文及关于AlphaGo的相关文章的学习心得。本文的主要目的是增进分享,交流学习,方便初学者了解AlphaGo中的算法,以及一些机器学习中的常见思路。 如下图就是《Nature》论文中的樊麾与AlphaGo对弈的一个棋谱: ?对弈从开局到中局变化都很大,尤其是中局,往往是一着不慎,满盘皆输。用数学的描述叫做估值函数(得分函数)非常不平滑。 在AlphaGo的论文中就是采用了以下更多的特征: ?所以,输入模型的特征是一个361×n维度的向量。基于这些向量来训练模型。 最终,AlphaGo只依靠一个13层的卷积神经网络就能训练出一个比较好的落子分类器。比起图像识别竞赛用到的20、30层的深层神经网络还是比较浅了。这些都是特征工程的功劳。3.3 初步采用什么样的模型? ◆ ◆ ◆总结到此为止,AlphaGo的算法原理基本介绍完了。其实也并不复杂,而且这些都不是AlphaGo或者DeepMind团队首创的。

    33030

    扫码关注云+社区

    领取腾讯云代金券