起底AlphaGo历史

一、AlphaGo zero横空出世

10月19日DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge(不使用人类知识掌握围棋)的论文,在论文中,Deepmind展示了他们强大的新版本围棋程序“AlphaGo Zero”—— 仅经过三天训练,就能以100:0击败此前击败李世石的AlphaGo Lee,经过21天训练,就能达到击败柯洁的AlphaGo Master的水平。

论文一出,AlphaGo Zero又出名了一把,有些同学不是很明白具体的含义,问我AlphaGo是不是都能自学习,已经实现了无监督学习了?收集了些资料,给大家看看,帮助大家搞清楚AlphaGo Zero到底代表了什么?主要创新和价值在什么地方。

二、扒一扒AlphaGo 历史

1 击败樊麾

2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature。

这个版本的名字叫AlphaGo Fan。

2 击败李世石

2016年3月,AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段。

这个版本名字叫AlphaGo Lee: 这个4:1胜李世石的版本相较 AlphaGo Fan 等级分大约提高了 600 分。和 AlphaGo Fan (Nature 2016) 相比,改进有以下几点: a) 自我对弈时走子同时打开 Policy Network 和 Value Network (AlphaGo Fan 自我对弈时走子只用 Policy Network); b) Policy network 和 Value Network 规模更大了,同时网络训练由分布式 GPU 升级为分布式 TPU。

3 排名短暂超越柯洁

2016年7月18日,AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。

4 化名“Master”横扫棋界

2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜。

AlphaGo Master: 这个版本相较 AlphaGo Lee 等级分提升了大约 1100 分。 年初网上快棋60:0赢了中日韩顶尖职业棋手,Master 微调版今年5月 3:0 胜柯洁。AlphaGo Master 和 AlphaGo Lee 相比, 主要改动有三项 a) 合并了 Policy Network 和 Value Network; b) 用 ResNet 替换了 CovNet; c) 强化学习训练算法从 Policy Gradient 改为 Policy Iteration。

5 战胜柯洁,成为世界第一

2017年5月23至27日乌镇围棋峰会,AlphaGo Master的强化版本和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号。

6 AlphaGo Zero战胜AlphaGo Master

AlphaGo Zero: 这个版本相较 AlphaGo Master 等级分又提升了大约 330 分。 330 分相当于柯洁和胡耀宇间的差距。 AlphaGo Zero 和 AlphaGo Master 相比,主要改动有两处: 1) 直接使用棋子位置做神经网络输入(下面会进一步叙述),不再使用人工特征 (AlphaGo Lee/Master/Fan 用过的人工特征包括: 当前位置是否是征子/引征, 当前位置吃子/被吃子数目, 本块棋的气数等); 2) 初始训练时不再使用人类棋谱做有监督学习,而是直接从基于围棋规则的随机下法开始强化学习。

AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。

三、棋力增强的技术细节

论文中披露棋力增强主要来源有以下四点:

a)使用ResNet 替换原来的 ConvNet, 根据论文 Figure 4.a 使用 ResNet 带来了大约 600 分的提高;

b)合并 Policy Network Value network 根据论文 Figure 4.a 这个改动也带来了大约 600分的提高;

c)Reinforcement Learning 训练算法的改进 (Policy Gradient -> Policy Iteration)。论文并没有量化这一改动的影响。但个人认为这里的改动很可能导致的在不动用大量计算资源的情况下更稳定的收敛速度和更好的克服遗忘性能;

d)取消人类棋谱知识和人工特征。论文暗示(但没有提供详细证据) 等级分为 4,858 AlphaGo Master 已经达到了训练瓶颈(Figure 6 中用一条直线表示),而删除基于人类棋谱的监督学习过程和删除人工特征得以使 AlphaGo Zero 的训练上限更高。可以在训练30天后超越 AlphaGo Master, 在训练40天后超越 AlphaGo Master 300 分。

四、专家的评价:

AI领域权威周志华教授在微博中评价如下:

花半小时看了下文章,说点个人浅见,未必正确仅供批评: 1)别幻想什么无监督学习,监督信息来自精准规则,非常强的监督信息。 2)不再把围棋当作从数据中学习的问题,回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。 3)如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。 4)类似想法以往有,但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构,存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设,所以这个尝试相当大胆。 5)工程实现能力超级强,别人即便跳出盲点,以启发式搜索界的工程能力也多半做不出来。 6)目前并非普适,只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2017-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!

围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo...

33811
来自专栏专知

【IJCAI 2018】30大 Tutorial,人工智能百花齐放

【导读】当地时间 7 月 13 - 19 日,备受关注的 AI 顶级国际会议 IJCAI 在瑞典斯德哥尔摩举行。在这次会议上,人工智能和机器学习领域的研究者为我...

1042
来自专栏CDA数据分析师

柯洁又输了,关于人工智能AlphaGo你需要知道些什么

原作者 Mirek Stanek 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 本月 23 日- 27 日,在乌镇主办“中国乌...

22110
来自专栏量子位

国内学者新研究:中医AI登场,自动开出药方

问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 啊~医学,一个正在被人工智能改变的领域。 一讲到这个,常见的报道大都是AI阅X光片无数,无师自通...

4296
来自专栏新智元

Jeff Dean 演讲直播:自主机器学习成为谷歌大脑最新研究热点(PPT)

【新智元导读】谷歌大脑负责人 Jeff Dean 今天上午在 UCSB 做了题为《通过大规模深度学习构建智能系统》的演讲。新智元结合 UCSB CS 在 Twi...

3445
来自专栏新智元

【珍藏】CMU大师对软件工程师的系统建议(附书和论文下载)

【新智元导读】软件工程师想学机器学习,有什么好建议?机器学习专家、卡耐基梅隆大学教授、1-Page公司首席科学家 Alex Smola 在 Quora 上给出了...

3587
来自专栏SeanCheney的专栏

三本关于机器学习和深度学习的书

这几本在Amazon上的排名都非常高,最近特别火的书。 第一本:《用Scikit-Learn和TensorFlow实践机器学习》(Hands-On Machi...

3426
来自专栏企鹅号快讯

机器学习人工学2017/12/31

这周国外过节比较清净。注意下面很多链接需要开学上网,无奈国情如此 1. Facebook AML团队发文,从应用的角度披露了很多FB内部用的机器学习系统,其中S...

1837
来自专栏数说工作室

P值之死

有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里, “P值为零”, 一个声音传来, “但你已经不能再拒绝,因为,P值已经死了” 从此,这个世界上充斥...

3227
来自专栏新智元

ICLR 2017 特稿:谷歌和 Facebook 亮眼表现盘点

【新智元导读】备受瞩目的深度学习&机器学习顶会 ICLR 2017 本周召开。新智元此前全面报道了 ICLR 的最佳论文及议程:ICLR 2017 最佳论文出炉...

2855

扫描关注云+社区