起底AlphaGo历史

一、AlphaGo zero横空出世

10月19日DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge(不使用人类知识掌握围棋)的论文,在论文中,Deepmind展示了他们强大的新版本围棋程序“AlphaGo Zero”—— 仅经过三天训练,就能以100:0击败此前击败李世石的AlphaGo Lee,经过21天训练,就能达到击败柯洁的AlphaGo Master的水平。

论文一出,AlphaGo Zero又出名了一把,有些同学不是很明白具体的含义,问我AlphaGo是不是都能自学习,已经实现了无监督学习了?收集了些资料,给大家看看,帮助大家搞清楚AlphaGo Zero到底代表了什么?主要创新和价值在什么地方。

二、扒一扒AlphaGo 历史

1 击败樊麾

2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature。

这个版本的名字叫AlphaGo Fan。

2 击败李世石

2016年3月,AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段。

这个版本名字叫AlphaGo Lee: 这个4:1胜李世石的版本相较 AlphaGo Fan 等级分大约提高了 600 分。和 AlphaGo Fan (Nature 2016) 相比,改进有以下几点: a) 自我对弈时走子同时打开 Policy Network 和 Value Network (AlphaGo Fan 自我对弈时走子只用 Policy Network); b) Policy network 和 Value Network 规模更大了,同时网络训练由分布式 GPU 升级为分布式 TPU。

3 排名短暂超越柯洁

2016年7月18日,AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。

4 化名“Master”横扫棋界

2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜。

AlphaGo Master: 这个版本相较 AlphaGo Lee 等级分提升了大约 1100 分。 年初网上快棋60:0赢了中日韩顶尖职业棋手,Master 微调版今年5月 3:0 胜柯洁。AlphaGo Master 和 AlphaGo Lee 相比, 主要改动有三项 a) 合并了 Policy Network 和 Value Network; b) 用 ResNet 替换了 CovNet; c) 强化学习训练算法从 Policy Gradient 改为 Policy Iteration。

5 战胜柯洁,成为世界第一

2017年5月23至27日乌镇围棋峰会,AlphaGo Master的强化版本和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号。

6 AlphaGo Zero战胜AlphaGo Master

AlphaGo Zero: 这个版本相较 AlphaGo Master 等级分又提升了大约 330 分。 330 分相当于柯洁和胡耀宇间的差距。 AlphaGo Zero 和 AlphaGo Master 相比,主要改动有两处: 1) 直接使用棋子位置做神经网络输入(下面会进一步叙述),不再使用人工特征 (AlphaGo Lee/Master/Fan 用过的人工特征包括: 当前位置是否是征子/引征, 当前位置吃子/被吃子数目, 本块棋的气数等); 2) 初始训练时不再使用人类棋谱做有监督学习,而是直接从基于围棋规则的随机下法开始强化学习。

AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。

三、棋力增强的技术细节

论文中披露棋力增强主要来源有以下四点:

a)使用ResNet 替换原来的 ConvNet, 根据论文 Figure 4.a 使用 ResNet 带来了大约 600 分的提高;

b)合并 Policy Network Value network 根据论文 Figure 4.a 这个改动也带来了大约 600分的提高;

c)Reinforcement Learning 训练算法的改进 (Policy Gradient -> Policy Iteration)。论文并没有量化这一改动的影响。但个人认为这里的改动很可能导致的在不动用大量计算资源的情况下更稳定的收敛速度和更好的克服遗忘性能;

d)取消人类棋谱知识和人工特征。论文暗示(但没有提供详细证据) 等级分为 4,858 AlphaGo Master 已经达到了训练瓶颈(Figure 6 中用一条直线表示),而删除基于人类棋谱的监督学习过程和删除人工特征得以使 AlphaGo Zero 的训练上限更高。可以在训练30天后超越 AlphaGo Master, 在训练40天后超越 AlphaGo Master 300 分。

四、专家的评价:

AI领域权威周志华教授在微博中评价如下:

花半小时看了下文章,说点个人浅见,未必正确仅供批评: 1)别幻想什么无监督学习,监督信息来自精准规则,非常强的监督信息。 2)不再把围棋当作从数据中学习的问题,回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。 3)如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。 4)类似想法以往有,但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构,存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设,所以这个尝试相当大胆。 5)工程实现能力超级强,别人即便跳出盲点,以启发式搜索界的工程能力也多半做不出来。 6)目前并非普适,只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2017-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

程序员也是天文学家?利用机器学习寻找行星

AiTechYun 编辑:xiangxiaoshan 今天,借助望远镜光学、太空飞行、数码相机和计算机等技术帮助,我们有可能探测其他恒星周围的行星。但发现系外行...

1879
来自专栏钱塘大数据

细思极恐!大数据和机器学习揭示十二星座的真实面目

作者:经管之家 “为什么我的论文总发表不了,是不是我天生就不是做研究的料?”很多同学在写论文中遇到挫折,经常会发出这样的疑问。那么今天我就用星座,真实的数据和“...

34612
来自专栏AI研习社

比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!| 快讯

读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?MCTS(蒙特卡...

3514
来自专栏CDA数据分析师

细思极恐!大数据和机器学习揭示十二星座的真实面目

? 原文链接:http://bbs.pinggu.org/thread-5905227-1-1.html “为什么我的论文总发表不了,是不是我天生就不是做...

2308
来自专栏机器之心

学界 | 霍金生前的最后一篇论文发布了:关于黑洞信息悖论

今年 3 月 14 日,霍金去世,享年 76 岁,但他的聪明才智对科学社区的贡献却仍未停止。作为一位备受尊敬的物理学家,霍金的最后一篇论文如今已在网上公开,这篇...

825
来自专栏AI科技大本营的专栏

比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类! PENG Bo

Photo by Jason Kempin/Getty Images for Agon Limited 作者 | 禀临科技联合创始人 PENG Bo 读过Alp...

2835
来自专栏镁客网

还认为钻石坚硬无比?科学家实验证明它“记忆可变形” | 黑科技

882
来自专栏人工智能快报

用于星系的人脸识别:人工智能为天文学带来新工具

【概要】名为“深度学习”的机器学习方法被广泛应用于人脸识别以及其他图像和语音识别应用程序,该方法在帮助天文学家分析星系图像及了解它们如何形成和演变方面展示了潜力...

942
来自专栏WOLFRAM

用 Wolfram 语言发掘数学殿堂中的瑰宝

1457
来自专栏机器人网

工业机器人的主体结构的基本形式

工业机器人的主体结构 的基本形式工业机器人的机械系统一般由一系列连杆、关节或其他形式的运动副所组成。机械系统通 常包括机座、立柱、腰关节、臂关节、腕关节和...

2706

扫码关注云+社区