专栏首页灯塔大数据Alphago获胜秘籍之武侠版【原创】

Alphago获胜秘籍之武侠版【原创】

十年前,一个荒无人烟的荒岛上,走来了两个人。一个老者,一个少年。老者名叫深思,无所不知,但是却不会武功;少年名叫Alpha,是个孤儿,之所以叫这个名字,可能是当初父亲从拉丁字母表的随便挑的。少年Alpha武功资质一般,但是有一项特殊的天赋,反应快,远超常人。

深思带Alpha到这个荒岛来,目的只有一个,就是将Alpha培养成为绝世高手。

一老一少不紧不慢的走了一天,来到了一个山洞。老者面无表情,对少年只说了一句:“自己学,三年之后出来见我。”然后头也不回的走了。

少年进了山洞,发现里面竟是一个藏经阁,里面收藏了古今以来所有的武林秘籍。少年大喜,开始日夜不停的开始学习。

五年后,少年离开了山洞,老者等在外面。五年的时间,少年从一无所知,仅仅靠自学,已经具备了差不多黄蓉(参见《射雕英雄传》)的实力,当然终究是纸上谈兵,武功无法再进一步。

深思只是简单的告诉少年,你可以到江湖上历练了。

不过,在把少年仍到江湖上去拼杀之前,深思交给了Alpha一件兵器,或者说是一件神器。这个神器的作用的用法很简单,可以召唤出一万个分身,但是这些分身只会武功,没有内力。在对阵的时候,这件神器不能直接对阵搏杀,但是它可以模拟Alpha和对手的过招,从一万次模拟过招中发现对手的破绽,然后一招制敌。

深思对Alpha说,以后,你就叫Alphago吧,于是,Alphago横空出世,依靠分身神兵,实力竟然达到了丘处机的水平。

Alphago的崛起是如此之快,江湖高手们很快就开始重视这个突然冒出的高手,并开始研究Alphago的弱点。很快,他们发现了Alphago一个最大的弱点,招法超强内力不行。这个限制导致了Alphago无法再进一步,成为顶尖高手。

这个时候,深思出现了,他将Alphago带回了山洞,并交给他一个新的修炼方法:左右互搏。于是Alphago开始闭关,在闭关期间,他利用左右互搏之术,每天自己互击上万次,在经过了上千万次的左右互搏练习后,Alphago出关了。

这个时候的Alphago,内力上有了飞跃,不靠分身神兵,自身就达到了丘处机的水平。而依靠分身神兵,Alphago几乎就是加强版的欧阳锋,有实力挑战这个世界的顶尖高手了。

剩下的事情,你们都知道了:华山论剑让Alphago一战成名,傲视天下!

更专业一点的解释:

“山洞自学”其实就是深度学习,通过“深度卷积神经网络”,以世界上古今中外的海量棋谱作为训练样本,进行训练,训练出的神经网络可以达到业余高手的水平。这个神经网络实现“走子网络”的功能。所以,走子网络实际上通过大量的训练,让Alphago具备了所谓的“棋感”。外界往往认为机器大局观不行,局部战斗厉害,其实是个误解。

“分身神器”其实就是蒙特卡罗搜索,在对局的时候,Alphago会让走子网络快速模拟战斗(下完整个棋局),并根据最终结果对每个位置的获胜概率进行评估。每步棋都会进行数万次的模拟,从而得到一个最终的准确的获胜概率估值,即“价值网络”。Alphago根据估值结果选择下法。到了这个阶段,机器就有了职业选手的水平了。

这里有个细节,由于走子网络需要的计算量很大,Alphago通过牺牲一些性能(精确度),将计算量缩小了1000倍,就构成了“快速走子”。这样,在特定计算资源限制下,机器可以灵活的选择是“每次模拟更准确但更少的模拟次数,还是更多的模拟次数但每次模拟结果差一些。最终的选择,是二者的混合使用(据说是前十几步让计算更准确,后面的步数让计算更快)。

左右互搏,是机器要得到更好的结果,需要更多更高质量的样本去训练“走子网络”。走子网络水平越高,机器棋感越强,价值网络的估值就更准确。Alphago通过跟自身下棋,得到了更多更高水平的训练样本(三千万次),并将这个样本回送到神经网络中进行不断学习。所以,本质上,机器就可以通过“自学习”的手段来自我提高。这个非常可怕。

最后,总结一下,最终的对局相当于一万个职业高手(王元水平的)在和李世石下棋,结果可想而知。

作者:杨明川博士

注:本文的描述受知乎作者袁行远的启发

本文分享自微信公众号 - 灯塔大数据(DTbigdata)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 每周学点大数据 | No.65 “Hello World”程序—— WordCount(上)

    编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算...

    灯塔大数据
  • 行业盘点 | 金融科技行业10大关键词

    前言 在过去的2017年,以大数据、人工智能、区块链、云计算为代表的新技术在金融领域的应用程度仍然在加深。科技金融的自动化、智能化、生活化趋势日益明显,技术赋能...

    灯塔大数据
  • 分享|中国电信灯塔大数据:如何巧用数据在金融征信的红海中突围?

    2016年6月29日,在中国电信与银行行业互联网+金融合作研讨会活动中,中国电信北京研究院大数据专家杨哲超,为国内各大银行的领导们带来了题为《中国电信灯塔大数据...

    灯塔大数据
  • 豪取BAT!超详细暑期实习算法面经(非科班无论文)

    本人基本情况:211本硕,本科电子信息工程,硕士通信与信息系统,典型的非科班,无论文,两段实习经历(均为算法岗,非大厂,一段CV,一段NLP)。

    NewBeeNLP
  • 《指数基金投资指南》第7章 做好家庭资产配置

    yeedomliu
  • HDU 1059(多重背包)

    Marsha and Bill own a collection of marbles. They want to split the collection a...

    dejavu1zz
  • 统一身份管理中的权限管理设计

    权限集中管理是统一身份管理关注的主要内容之一,由于企业应用建设的自身历程不同,权限设计与实现也必然存在差异,针对集中权限管理的设计和实现带来了不小的挑战,本文根...

    嘉为科技
  • 让Python输出更漂亮:PrettyPrinter

    PrettyPrinter是Python 3.6 及以上版本中的一个功能强大、支持语法高亮、描述性的美化打印包。它使用了改进的Wadler-Leijen布局算法...

    一墨编程学习
  • 传统企业自己招人开发软件系统,会遇到哪些坑?

    企业自己招程序员开发系统的,不在少数,很多企业还寄希望于为自己企业做的软件系统,以后能卖给其他企业。但是往往效果不如人意,不仅没办法对外销售,内部应用也是苦不堪...

    人称T客
  • 你的前端开发的优势是什么?

    每个前端开发都要有自己的优势,总结一下我的优势,1、工作年限长、经验多;2、基础相对扎实;3、逻辑思维能力合格;4、业务需求分析能合格。基本上就这四点吧,一般来...

    web前端教室

扫码关注云+社区

领取腾讯云代金券