起底AlphaGo历史

一、AlphaGo zero横空出世

10月19日DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge(不使用人类知识掌握围棋)的论文,在论文中,Deepmind展示了他们强大的新版本围棋程序“AlphaGo Zero”—— 仅经过三天训练,就能以100:0击败此前击败李世石的AlphaGo Lee,经过21天训练,就能达到击败柯洁的AlphaGo Master的水平。

论文一出,AlphaGo Zero又出名了一把,有些同学不是很明白具体的含义,问我AlphaGo是不是都能自学习,已经实现了无监督学习了?收集了些资料,给大家看看,帮助大家搞清楚AlphaGo Zero到底代表了什么?主要创新和价值在什么地方。

二、扒一扒AlphaGo 历史

1 击败樊麾

2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature。

这个版本的名字叫AlphaGo Fan。

2 击败李世石

2016年3月,AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段。

这个版本名字叫AlphaGo Lee: 这个4:1胜李世石的版本相较 AlphaGo Fan 等级分大约提高了 600 分。和 AlphaGo Fan (Nature 2016) 相比,改进有以下几点: a) 自我对弈时走子同时打开 Policy Network 和 Value Network (AlphaGo Fan 自我对弈时走子只用 Policy Network); b) Policy network 和 Value Network 规模更大了,同时网络训练由分布式 GPU 升级为分布式 TPU。

3 排名短暂超越柯洁

2016年7月18日,AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。

4 化名“Master”横扫棋界

2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜。

AlphaGo Master: 这个版本相较 AlphaGo Lee 等级分提升了大约 1100 分。 年初网上快棋60:0赢了中日韩顶尖职业棋手,Master 微调版今年5月 3:0 胜柯洁。AlphaGo Master 和 AlphaGo Lee 相比, 主要改动有三项 a) 合并了 Policy Network 和 Value Network; b) 用 ResNet 替换了 CovNet; c) 强化学习训练算法从 Policy Gradient 改为 Policy Iteration。

5 战胜柯洁,成为世界第一

2017年5月23至27日乌镇围棋峰会,AlphaGo Master的强化版本和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号。

6 AlphaGo Zero战胜AlphaGo Master

AlphaGo Zero: 这个版本相较 AlphaGo Master 等级分又提升了大约 330 分。 330 分相当于柯洁和胡耀宇间的差距。 AlphaGo Zero 和 AlphaGo Master 相比,主要改动有两处: 1) 直接使用棋子位置做神经网络输入(下面会进一步叙述),不再使用人工特征 (AlphaGo Lee/Master/Fan 用过的人工特征包括: 当前位置是否是征子/引征, 当前位置吃子/被吃子数目, 本块棋的气数等); 2) 初始训练时不再使用人类棋谱做有监督学习,而是直接从基于围棋规则的随机下法开始强化学习。

AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。

三、棋力增强的技术细节

论文中披露棋力增强主要来源有以下四点:

a)使用ResNet 替换原来的 ConvNet, 根据论文 Figure 4.a 使用 ResNet 带来了大约 600 分的提高;

b)合并 Policy Network Value network 根据论文 Figure 4.a 这个改动也带来了大约 600分的提高;

c)Reinforcement Learning 训练算法的改进 (Policy Gradient -> Policy Iteration)。论文并没有量化这一改动的影响。但个人认为这里的改动很可能导致的在不动用大量计算资源的情况下更稳定的收敛速度和更好的克服遗忘性能;

d)取消人类棋谱知识和人工特征。论文暗示(但没有提供详细证据) 等级分为 4,858 AlphaGo Master 已经达到了训练瓶颈(Figure 6 中用一条直线表示),而删除基于人类棋谱的监督学习过程和删除人工特征得以使 AlphaGo Zero 的训练上限更高。可以在训练30天后超越 AlphaGo Master, 在训练40天后超越 AlphaGo Master 300 分。

四、专家的评价:

AI领域权威周志华教授在微博中评价如下:

花半小时看了下文章,说点个人浅见,未必正确仅供批评: 1)别幻想什么无监督学习,监督信息来自精准规则,非常强的监督信息。 2)不再把围棋当作从数据中学习的问题,回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。 3)如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。 4)类似想法以往有,但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构,存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设,所以这个尝试相当大胆。 5)工程实现能力超级强,别人即便跳出盲点,以启发式搜索界的工程能力也多半做不出来。 6)目前并非普适,只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2017-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

德国AI“算个球”:西班牙是冠军,只要别让德国进八强(严谨推理)

可能是由于人类(包括球王)预测不靠谱,前几届世界杯预测战况和冠军的任务,常常交给动物完成。

862
来自专栏AI科技评论

学界 | 用充满爱与和平的GUNs挑战GANs?我可能看了篇假论文

上个世界七八十年代,邓小平爷爷曾郑重其事地提出:和平与发展是当代世界的两大主题。如今,这一伟大宏愿实现的如何? 据联合国今年1月份发布的公报显示:去年一年仅在伊...

36810
来自专栏专知

【论文推荐】最新7篇聊天机器人(Chatbot)相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【导读】专知内容组整理了最近七篇聊天机器人(Chatbot)相关文章,为大家进行介绍,欢迎查看! 1. Touch Your Heart: A Tone-awa...

5305
来自专栏机器学习算法与Python学习

傅立叶分析和小波分析之间的关系? (通俗讲解)

从傅里叶变换到小波变换,并不是一个完全抽象的东西,完全可以讲得很形象。小波变换有着明确的物理意义,如果我们从它的提出时所面对的问题看起,可以整理出非常清晰的思路...

3629
来自专栏新智元

【实测】谷歌翻译特朗普就职演讲,正确率如何(附技术原理解析)

【新智元导读】 美国新总统特朗普1月21日发表就职演讲,讲话内容受到国内高度关注。新智元使用谷歌翻译对特朗普就职演讲的内容进行了翻译实测,发现谷歌翻译的准确率相...

3458
来自专栏SeanCheney的专栏

三本关于机器学习和深度学习的书

这几本在Amazon上的排名都非常高,最近特别火的书。 第一本:《用Scikit-Learn和TensorFlow实践机器学习》(Hands-On Machi...

3716
来自专栏奇点大数据

破解PRISMA(中)

对PRISMA的研究已经持续了一周了。虽然还没有完全破解PRISMA最终各种滤镜算法的奥妙,但是确实得到了不少宝贵的信息。 喏,比如上次,我们就找到了这篇著名的...

3366
来自专栏大数据文摘

阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案

1593
来自专栏数说工作室

P值之死

有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里, “P值为零”, 一个声音传来, “但你已经不能再拒绝,因为,P值已经死了” 从此,这个世界上充斥...

3517
来自专栏专知

【专知荟萃05】聊天机器人Chatbot知识资料全集(入门/进阶/论文/软件/数据/专家等)(附pdf下载)

【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得...

4718

扫码关注云+社区