Alphago获胜秘籍之武侠版【原创】

十年前,一个荒无人烟的荒岛上,走来了两个人。一个老者,一个少年。老者名叫深思,无所不知,但是却不会武功;少年名叫Alpha,是个孤儿,之所以叫这个名字,可能是当初父亲从拉丁字母表的随便挑的。少年Alpha武功资质一般,但是有一项特殊的天赋,反应快,远超常人。

深思带Alpha到这个荒岛来,目的只有一个,就是将Alpha培养成为绝世高手。

一老一少不紧不慢的走了一天,来到了一个山洞。老者面无表情,对少年只说了一句:“自己学,三年之后出来见我。”然后头也不回的走了。

少年进了山洞,发现里面竟是一个藏经阁,里面收藏了古今以来所有的武林秘籍。少年大喜,开始日夜不停的开始学习。

五年后,少年离开了山洞,老者等在外面。五年的时间,少年从一无所知,仅仅靠自学,已经具备了差不多黄蓉(参见《射雕英雄传》)的实力,当然终究是纸上谈兵,武功无法再进一步。

深思只是简单的告诉少年,你可以到江湖上历练了。

不过,在把少年仍到江湖上去拼杀之前,深思交给了Alpha一件兵器,或者说是一件神器。这个神器的作用的用法很简单,可以召唤出一万个分身,但是这些分身只会武功,没有内力。在对阵的时候,这件神器不能直接对阵搏杀,但是它可以模拟Alpha和对手的过招,从一万次模拟过招中发现对手的破绽,然后一招制敌。

深思对Alpha说,以后,你就叫Alphago吧,于是,Alphago横空出世,依靠分身神兵,实力竟然达到了丘处机的水平。

Alphago的崛起是如此之快,江湖高手们很快就开始重视这个突然冒出的高手,并开始研究Alphago的弱点。很快,他们发现了Alphago一个最大的弱点,招法超强内力不行。这个限制导致了Alphago无法再进一步,成为顶尖高手。

这个时候,深思出现了,他将Alphago带回了山洞,并交给他一个新的修炼方法:左右互搏。于是Alphago开始闭关,在闭关期间,他利用左右互搏之术,每天自己互击上万次,在经过了上千万次的左右互搏练习后,Alphago出关了。

这个时候的Alphago,内力上有了飞跃,不靠分身神兵,自身就达到了丘处机的水平。而依靠分身神兵,Alphago几乎就是加强版的欧阳锋,有实力挑战这个世界的顶尖高手了。

剩下的事情,你们都知道了:华山论剑让Alphago一战成名,傲视天下!

更专业一点的解释:

“山洞自学”其实就是深度学习,通过“深度卷积神经网络”,以世界上古今中外的海量棋谱作为训练样本,进行训练,训练出的神经网络可以达到业余高手的水平。这个神经网络实现“走子网络”的功能。所以,走子网络实际上通过大量的训练,让Alphago具备了所谓的“棋感”。外界往往认为机器大局观不行,局部战斗厉害,其实是个误解。

“分身神器”其实就是蒙特卡罗搜索,在对局的时候,Alphago会让走子网络快速模拟战斗(下完整个棋局),并根据最终结果对每个位置的获胜概率进行评估。每步棋都会进行数万次的模拟,从而得到一个最终的准确的获胜概率估值,即“价值网络”。Alphago根据估值结果选择下法。到了这个阶段,机器就有了职业选手的水平了。

这里有个细节,由于走子网络需要的计算量很大,Alphago通过牺牲一些性能(精确度),将计算量缩小了1000倍,就构成了“快速走子”。这样,在特定计算资源限制下,机器可以灵活的选择是“每次模拟更准确但更少的模拟次数,还是更多的模拟次数但每次模拟结果差一些。最终的选择,是二者的混合使用(据说是前十几步让计算更准确,后面的步数让计算更快)。

左右互搏,是机器要得到更好的结果,需要更多更高质量的样本去训练“走子网络”。走子网络水平越高,机器棋感越强,价值网络的估值就更准确。Alphago通过跟自身下棋,得到了更多更高水平的训练样本(三千万次),并将这个样本回送到神经网络中进行不断学习。所以,本质上,机器就可以通过“自学习”的手段来自我提高。这个非常可怕。

最后,总结一下,最终的对局相当于一万个职业高手(王元水平的)在和李世石下棋,结果可想而知。

作者:杨明川博士

注:本文的描述受知乎作者袁行远的启发

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2016-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏悦思悦读

用一个高考数据的例子,说明数据的误导

又是一年高考 高考成绩刚出,正在紧张的志愿填报阶段。朋友圈里每天被高考刷屏。消息大部分可归为两类:i) 推荐学校,和ii)感叹阶级固化“寒门再难出贵子”。 后一...

33480
来自专栏生信技能树

R语言系列:探索R自带数据包

向量 euro #欧元汇率,长度为11,每个元素都有命名 landmasses #48个陆地的面积,每个都有命名 precip #长度为70的...

13720
来自专栏WOLFRAM

Mathematica 谜中智 | 趣味象棋 一马平川

61530
来自专栏人工智能头条

2000块GPU训练一个围棋AI,Facebook告诉你什么叫“真的壕”

17340
来自专栏新智元

【重磅】中国研究再登Cell封面,AI影像诊断系统精准度堪比顶尖医师

编辑:刘小芹、张乾 【新智元导读】中国团队的研究成果发表在今天出版的《细胞》封面上,这是继克隆猴之后不到一个月内,中国科研成果再次发表在顶级生物学刊物上。本次研...

35080
来自专栏人工智能头条

高级搜索树+深度增强学习,Google DeepMind AI算法击败欧洲围棋冠军

19650
来自专栏机器人网

复杂的机械传动原理动图,工程师都能看一整天

01 凸轮式间歇运动机构 ▼ ? 凸轮式间歇运动机构由主动凸轮、从动转盘和机架组成。主动凸轮的圆柱面上有一条两端开口、不闭合的曲线沟槽或凸脊,从动转盘端面上有均...

61390
来自专栏专知

【专知荟萃12】信息检索 Information Retrieval 知识资料全集(入门/进阶/综述/代码/专家,附PDF下载)

【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得...

42450
来自专栏AI科技评论

ICRA 2018奖项全公布,香港大学团队获最佳会议论文

ICRA 2018 本周于澳大利亚布里斯班举行。随着会议议程的推进,今天也迎来了本次大会的重头戏——ICRA 相关奖项的颁布仪式

20330
来自专栏CDA数据分析师

逢赌必赢的秘密

本文由CDA作者库成员麻赛原创,并授权发布 原文来自公众号麻大湿讲数据(ID:madashi_data)。 ? 首先是麻大湿的老实交代 这篇文章标题党了,你不能...

54980

扫码关注云+社区

领取腾讯云代金券