仅用3天,AlphaGo Zero就凭借自学以100:0击败AlphaGo,柯洁表示人类太多余了

AlphaGo Zero3天时间就能达到击败李世石的AlphaGo Lee的水平,21天可以达到了之前击败柯洁的AlphaGo Master的水平。

今天凌晨,谷歌旗下Deepmind人工智能团队发布了一篇轰动AI界的论文,《Mastering the game of Go without human knowledge》(在没有人类知识的情况下掌握围棋),一句话总结这篇论文,他们研发的AlphaGo大表哥AlphaGo Zero能够在没有人类围棋对弈数据的情况下,直接通过自我纯强化学习,于短短的3天自我训练时间后,以100:0的战绩击败曾经的AlphaGo。

学霸中的战斗机

大表哥AlphaGo Zero完全靠“悟性”登上围棋巅峰

在下面的视频中,DeepMind研究人员简单的介绍了新一代的AlphaGo Zero的基本原理,

视频内容

DeepMind联合创始人兼CEO Demis Hassabis表示:“AlphaGo Zero是我们项目中最强大的版本,它展示了我们在更少的计算能力,而且完全不使用人类数据的情况下可以取得如此大的进展。”

举个简单的例子,AlphaGo是经过大量的人工对弈数据学习和训练才一点点登上围棋的巅峰,它之所以能在去年打败李世石,并且在今年以Master的身份战胜排名世界第一的柯洁,都依赖于海量的人类对弈数据。

但是它的大表哥AlphaGo Zero是从一个完全不懂围棋知识和规则的神经网络开始,AlphaGo Zero每天就默默的自己一个人玩,不会像我们一样整天突击学习各种历史棋谱,参考前辈们的经验知识,它完全依靠自己的悟性(自我强化学习),在这个过程中,神经网络会不断更新、调整,来预测落子的位置,发展新的策略。

值得注意的是,AlphaGo Zero的自我训练强化时间更短,AlphaGo Zero只需要在4个TPU上花三天时间,自己左右互搏490万棋局。而它的大表弟AlphaGo需要在48个TPU上,花几个月的时间,学习三千万棋局,才能打败人类。对于AlphaGo Zero来说,3天时间就能达到了击败李世石的AlphaGo Lee的水平,21天可以达到了之前击败柯洁的AlphaGo Master的水平。

AlphaGo Zero给我们的启发

Deepmind的论文中也公布了AlphaGo Zero的一些技术细节,现在也有不少文章分享了相关的技术原理,镁客君简单的整理一下,其实主要在于AlphaGo Zero有更深的网络能更有效地直接从棋盘上提取特征。

AlphaGo Zero在自我对弈中,在每一个落点s,神经网络fθ都会进行蒙特卡洛树(MCTS)搜索,得出每一步落子的概率π,再根据游戏规则计算出最终的获胜者z,这一过程可被视为一个强有力的评估策略操作。在这其中,神经网络参数不断更新,落子概率和价值 (p,v)= fθ(s)也越来越接近改善后的搜索概率和自我对弈胜者 (π, z),而新的参数也会被用于下一次的自我对弈来以增强搜索的结果。

更多的技术原理可以参考下面的论文:

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

其实AlphaGo Zero之所以会一石激起千层浪,很大原因在于这种自我强化训练,不需要过多人工标注样本的自我强化训练未来可能的应用前景。

想象一下,以后可能再也不用花费大量的时间去为人工智能的应用或者产品做海量的数据准备工作,更何况很多情况下,数据的获取难度也非常之大。

尤其是很多小样本应用领域内,大量的人工标注几乎不可能实现,比如医疗数据方面,考虑到数据隐私性,以及各个医院之间的互通性,这些都让海量数据获取和训练难上加难。

而Demis Hassabis认为AlphaGo Zero的意义在于,“我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题,例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展,就有可能推动人类理解,并对我们的生活产生积极影响。”

AlphaGo Zero的技术理论是美好的,但是我们也需要思考的是,这种仅仅依靠神经网络算法来解决实际问题,其实际应用的范围到底有多大以及效果如何?

人工智能专家、美国北卡罗莱纳大学夏洛特分校洪韬教授表示,早期人工智能火了之后,被神经网络“解决”的实际问题寥寥无几;美国密歇根大学人工智能实验室主任Satinder Singh也表示,人工智能和人甚至动物相比,所知所能依然极端有限。

回顾AlphaGo成名史

聊聊AlphaGo Zero的下一步

出生于2014年的AlphaGo,2015年就击败了樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序。到了2016年3月,AlphaGo在和李世石的对战中一举成名,4:1的胜绩让它成为有史以来第一位非人类的名誉职业九段;之后升级版AlphaGo以“Master”的称号,挑战了中韩日台的一流高手,最终60战全胜;2017年,AlphaGo在浙江乌镇,和我国围棋选手柯洁进行对战,最终以打败柯洁成为世界第一正式退役谢幕。

那么对于AlphaGo Zero,大家也非常期待它会以什么样的身份正式亮相,镁客君觉得可能会是这样的情景:

今年8月的时候,DeepMind 曾公开宣布,星际争霸 2 将会是其下一个目标。自学能力如此强的AlphaGo Zero极有可能会在星际争霸AI中亮相。

和围棋对弈相比,星际争霸 AI 也是基于开发者人工编写的规则和策略,此前的对战中,AI会观看海量的比赛数据,然后尝试各种不同的策略,在反复的训练和学习后,从其中选出最有可能获胜的一种。可以想象,按照AlphaGo Zero的自我强化学习能力,它完全能够在自我博弈过程中去寻找到最佳的策略。

最后,在看到柯洁发的这条微博动态后,

一声唏嘘,在这样的人工智能面前,人类的学习经验价值似乎越来越低,人类会太多余吗……

原文发布于微信公众号 - 镁客网(im2maker)

原文发表时间:2017-10-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

柯洁1/4子惜败,机器之心独家对话AlphaGo开发者导师 Martin Müller

机器之心报道 参与:杜夏德、李泽南 第一战,AlphaGo 赢了!几乎不出人意料。 5 月 23 日,中国围棋协会和浙江省体育局携手谷歌联合主办的「中国乌镇·...

2888
来自专栏AI科技评论

现场|David Silver原文演讲:揭秘新版AlphaGo算法、硬件和训练细节

AI科技评论按:乌镇围棋峰会第二天,在《AlphaGo研发介绍,AlphaGo意味着什么》主题演讲上,Demis Hassabis+David Silver针对...

2926
来自专栏AI科技大本营的专栏

AlphaGo棋风已变,强化学习功不可没

不出所料,AlphaGo又赢了。 人不再是当年那个人,“狗”也不再是当年那只“狗”。 对于今天的棋局,柯洁表现如何AlphaGo的表现又如何,它何以能变得更强?...

3236
来自专栏AI科技评论

动态 | 围棋教学工具 AlphaGo Teach上线第二天,Deepmind 资深研究员黄士杰宣布离开 AlphaGo 项目

AI 科技评论消息,北京时间 12 月 11 日晚,DeepMind 在 twitter 上宣布推出围棋教学工具 AlphaGo Teach。 ? 上图中,标有...

2884
来自专栏AI科技评论

重磅 | 继 AlphaGo 又一突破:人工智能战胜德州扑克职业选手

AI 科技评论消息:当地时间 1 月 30 日,在宾夕法尼亚州匹兹堡的 Rivers 赌场,卡耐基梅隆大学(CMU)开发的人工智能系统 Libratus 战胜四...

3258
来自专栏专知

【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线

【导读】12月11日晚,大家期待已有的 AlphaGo教学工具正式上线了,DeepMind资深研究员黄士杰和DeepMind围棋大使樊麾在Facebook和其新...

3164
来自专栏机器之心

深度 | 升级版AlphaGo 5月决战柯洁,DeepMind揭秘计算机全新棋风

机器之心原创 参与:李泽南、李亚洲、吴攀 4 月 10 日下午,谷歌在北京的中国棋院召开新闻发布会,正式宣布 AlphaGo 将于今年 5 月 23 日在浙江乌...

36310
来自专栏量子位

围棋人机大战一周年:被AlphaGo改变的世界

舒石、若朴 发自 凹非寺 量子位·QbitAI 报道 去年今日,三连败的李世乭扳回一局。 然而这一针兴奋剂很快失效,随后李世乭再折一阵,最终以1:4输给Alph...

3658
来自专栏量子位

人工智能已在赌场赢了100多万美元,德州扑克大战人类又要败了

今天是年三十儿啦,『量子位』祝大家新春快乐!在这亲友相聚的日子里,我们讲一个AI横扫赌场的故事,也挺适合你讲给他们听…… 报道 | 量子位 舒石 ? 百万美...

3376
来自专栏AI科技评论

柯洁说“输得没脾气”?8个问题解读人机大战第一局

AI科技评论消息,经过四个多小时的对弈,柯洁以四分之一子之差败给了AlphaGo。 比赛后,曾参与训练AlphaGo的棋手樊麾,与围棋九段常昊一同回顾了整个对弈...

2716

扫码关注云+社区

领取腾讯云代金券