起底AlphaGo历史

一、AlphaGo zero横空出世

10月19日DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge(不使用人类知识掌握围棋)的论文,在论文中,Deepmind展示了他们强大的新版本围棋程序“AlphaGo Zero”—— 仅经过三天训练,就能以100:0击败此前击败李世石的AlphaGo Lee,经过21天训练,就能达到击败柯洁的AlphaGo Master的水平。

论文一出,AlphaGo Zero又出名了一把,有些同学不是很明白具体的含义,问我AlphaGo是不是都能自学习,已经实现了无监督学习了?收集了些资料,给大家看看,帮助大家搞清楚AlphaGo Zero到底代表了什么?主要创新和价值在什么地方。

二、扒一扒AlphaGo 历史

1 击败樊麾

2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature。

这个版本的名字叫AlphaGo Fan。

2 击败李世石

2016年3月,AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段。

这个版本名字叫AlphaGo Lee: 这个4:1胜李世石的版本相较 AlphaGo Fan 等级分大约提高了 600 分。和 AlphaGo Fan (Nature 2016) 相比,改进有以下几点: a) 自我对弈时走子同时打开 Policy Network 和 Value Network (AlphaGo Fan 自我对弈时走子只用 Policy Network); b) Policy network 和 Value Network 规模更大了,同时网络训练由分布式 GPU 升级为分布式 TPU。

3 排名短暂超越柯洁

2016年7月18日,AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。

4 化名“Master”横扫棋界

2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜。

AlphaGo Master: 这个版本相较 AlphaGo Lee 等级分提升了大约 1100 分。 年初网上快棋60:0赢了中日韩顶尖职业棋手,Master 微调版今年5月 3:0 胜柯洁。AlphaGo Master 和 AlphaGo Lee 相比, 主要改动有三项 a) 合并了 Policy Network 和 Value Network; b) 用 ResNet 替换了 CovNet; c) 强化学习训练算法从 Policy Gradient 改为 Policy Iteration。

5 战胜柯洁,成为世界第一

2017年5月23至27日乌镇围棋峰会,AlphaGo Master的强化版本和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号。

6 AlphaGo Zero战胜AlphaGo Master

AlphaGo Zero: 这个版本相较 AlphaGo Master 等级分又提升了大约 330 分。 330 分相当于柯洁和胡耀宇间的差距。 AlphaGo Zero 和 AlphaGo Master 相比,主要改动有两处: 1) 直接使用棋子位置做神经网络输入(下面会进一步叙述),不再使用人工特征 (AlphaGo Lee/Master/Fan 用过的人工特征包括: 当前位置是否是征子/引征, 当前位置吃子/被吃子数目, 本块棋的气数等); 2) 初始训练时不再使用人类棋谱做有监督学习,而是直接从基于围棋规则的随机下法开始强化学习。

AlphaGo在没有人类对手后,2017年5月25日,AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始,从业余棋手的水平到世界第一,AlphaGo的棋力获取这样的进步,仅仅花了两年左右。

三、棋力增强的技术细节

论文中披露棋力增强主要来源有以下四点:

a)使用ResNet 替换原来的 ConvNet, 根据论文 Figure 4.a 使用 ResNet 带来了大约 600 分的提高;

b)合并 Policy Network Value network 根据论文 Figure 4.a 这个改动也带来了大约 600分的提高;

c)Reinforcement Learning 训练算法的改进 (Policy Gradient -> Policy Iteration)。论文并没有量化这一改动的影响。但个人认为这里的改动很可能导致的在不动用大量计算资源的情况下更稳定的收敛速度和更好的克服遗忘性能;

d)取消人类棋谱知识和人工特征。论文暗示(但没有提供详细证据) 等级分为 4,858 AlphaGo Master 已经达到了训练瓶颈(Figure 6 中用一条直线表示),而删除基于人类棋谱的监督学习过程和删除人工特征得以使 AlphaGo Zero 的训练上限更高。可以在训练30天后超越 AlphaGo Master, 在训练40天后超越 AlphaGo Master 300 分。

四、专家的评价:

AI领域权威周志华教授在微博中评价如下:

花半小时看了下文章,说点个人浅见,未必正确仅供批评: 1)别幻想什么无监督学习,监督信息来自精准规则,非常强的监督信息。 2)不再把围棋当作从数据中学习的问题,回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。 3)如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。 4)类似想法以往有,但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构,存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设,所以这个尝试相当大胆。 5)工程实现能力超级强,别人即便跳出盲点,以启发式搜索界的工程能力也多半做不出来。 6)目前并非普适,只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2017-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SeanCheney的专栏

三本关于机器学习和深度学习的书

这几本在Amazon上的排名都非常高,最近特别火的书。 第一本:《用Scikit-Learn和TensorFlow实践机器学习》(Hands-On Machi...

3856
来自专栏灯塔大数据

探秘|用深度学习诊断预防失明,谷歌人工智能还能做一些更严肃的事情

? 谷歌的人工智能已经比人类更好地掌握了古老的围棋、学会了识别人脸和口语、能帮你在网络中智能地筛选答案、甚至还能将你说的话翻译成上百种语言。而除了玩游戏和提供...

3549
来自专栏AI2ML人工智能to机器学习

哈密尔顿,不变的爱

前面我们提到两大变( “变分の美” 和 “Legendre变变变” ), 那么一直在变的话,什么时候不再变呢? 这就是我们今天想概述的。 所谓物极必反, 又所...

1351
来自专栏专知

【论文推荐】最新7篇聊天机器人(Chatbot)相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【导读】专知内容组整理了最近七篇聊天机器人(Chatbot)相关文章,为大家进行介绍,欢迎查看! 1. Touch Your Heart: A Tone-awa...

6135
来自专栏程序人生 阅读快乐

[C数值算法]

本书编写了300多个实用而有效的数值算法C语言程序。其内容包括:线性方程组的求解,逆矩阵和行列式计算,多项式和有理函数的内插与外推,函数的积分和估值,特殊函数的...

482
来自专栏新智元

【一文读懂AlphaGo Zero算法】白话蒙特卡洛树搜索和ResNet

【新智元导读】AlphaGo Zero 令人惊艳。不过,有些评论似乎渲染过度,把它的算法说得神乎其神。大数医达创始人,CMU计算机学院暨机器人研究所博士邓侃在...

4785
来自专栏AI科技评论

学界 | 用充满爱与和平的GUNs挑战GANs?我可能看了篇假论文

上个世界七八十年代,邓小平爷爷曾郑重其事地提出:和平与发展是当代世界的两大主题。如今,这一伟大宏愿实现的如何? 据联合国今年1月份发布的公报显示:去年一年仅在伊...

38310
来自专栏数说工作室

P值之死

有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里, “P值为零”, 一个声音传来, “但你已经不能再拒绝,因为,P值已经死了” 从此,这个世界上充斥...

3637
来自专栏海天一树

LDA处理文档主题分布

这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布。 在了解本篇内容之前,推荐先阅读相关的基础知识: LDA文档主题生成模型入门 结巴中文...

1303
来自专栏奇点大数据

破解PRISMA(中)

对PRISMA的研究已经持续了一周了。虽然还没有完全破解PRISMA最终各种滤镜算法的奥妙,但是确实得到了不少宝贵的信息。 喏,比如上次,我们就找到了这篇著名的...

3426

扫码关注云+社区