比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!

原标题:比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!

来源:本文作者PENG Bo(http://t.cn/RY3MKSS),本文首发于作者的知乎专栏《技术备忘录》

读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?MCTS(蒙特卡洛树搜索)能比得上alpha-beta搜索吗?许多研究者都曾对此表示怀疑。

但今天AlphaZero来了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切怀疑,通过使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:

4小时就打败了国际象棋的最强程序Stockfish!

2小时就打败了日本将棋的最强程序Elmo!

8小时就打败了与李世石对战的AlphaGo v18!

在训练后,它面对Stockfish取得100盘不败的恐怖战绩,而且比之前的AlphaGo Zero也更为强大(根据论文后面的表格,训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero)。

这令人震惊,因为此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。

然而现在Stockfish就像一位武术大师,碰上了用枪的AlphaZero,被一枪毙命。

在reddit的国象版面的讨论中(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess)(http://t.cn/RY3x1kK),大家纷纷表示AlphaZero已经不是机器的棋了,是神仙棋,非常优美,富有策略性,更能深刻地谋划(maneuver),完全是在调戏Stockfish。

喜欢国象的同学注意了:AlphaZero不喜欢西西里防御。

训练过程极其简单粗暴。超参数,网络架构都不需要调整。无脑上算力,就能解决一切问题。

Stockfish和Elmo,每秒种需要搜索高达几千万个局面。

AlphaZero每秒种仅需搜索几万个局面,就将他们碾压。深度网络真是狂拽炫酷。

当然,训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了,需要5000个TPU v1作为生成自对弈棋谱。

不过,随着硬件的发展,这样的计算资源会越来越普及。未来的AI会有多强大,确实值得思考。

个人一直认为MCTS+深度网络是非常强的组合,因为MCTS可为深度网络补充逻辑性。我预测,这个组合未来会在更多场合显示威力,例如有可能真正实现自动写代码,自动数学证明。

为什么说编程和数学,因为这两个领域和下棋一样,都有明确的规则和目标,有可模拟的环境。

(在此之前,深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文,电脑以后自己都可以写出来)

也许在5到20年内,我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......

未来智能实验室致力于研究互联网与人工智能未来发展趋势,观察评估人工智能发展水平,由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

本文来自企鹅号 - 凤凰新闻媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限

【新智元导读】AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,解答了世人对于人...

38540
来自专栏星流全栈

图解机器学习

13740
来自专栏机器人网

[QA问答] :冷扑大师能战胜AlphaZero吗?

拿下NIPS2017 最佳论文,登上Science,“冷扑大师”最近有点热。18日,两位作者,CMU博士生Noam Brown和Tuomas Sandholm教...

29580
来自专栏量子位

AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天

Root 编译整理 量子位 出品 | 公众号 QbitAI 昨天,DeepMind团队又在arXiv上扔了个重磅炸弹,新一代AlphaZero在用了强劲的计算资...

35750
来自专栏顶级程序员

AlphaGo之父:关于围棋,人类3000年来犯了一个错

转自澎湃新闻 “我会抱必胜心态、必死信念。我一定要击败阿尔法狗!” 对于5月23日至27日与围棋人工智能程序AlphaGo(阿尔法狗)的对弈,目前世界排名第一...

38970
来自专栏机器之心

机器之心专访腾讯「绝艺」团队负责人:用全新强化学习方法造就更强模型

机器之心原创 作者:李泽南、吴攀 3 月 19 日,在全部由人工智能参加的 UEC 杯世界围棋大赛中,绝艺战胜了所有对手。据介绍,在本次比赛结束后,腾讯 AI ...

44190
来自专栏量子位

星际争霸界也出了位“带路党”,当年的冠军正帮谷歌AI击败人类

李杉 若朴 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 1990年代,十几岁的Oriol Vinyals(维纽斯)成了西班牙《星际争霸》全国冠军。...

32340
来自专栏新智元

2016 年深度学习五大突破性进展

【新智元导读】Grakn Labs 是一家位于伦敦,距离 DeepMind 总部不足2.5公里的深度学习创业公司。该公司最近发表文章盘点了其团队伙伴选出的今年 ...

40870
来自专栏PPV课数据科学社区

人工智能领域里程碑:AlphaGo战胜围棋9段选手

? 3月9日消息,代表人类出战的李世石九段与谷歌DeepMind人工智能程序“阿尔法围棋”之间历史性的人机大战3月9日在首尔四季酒店拉开序幕。首局谷歌...

406120
来自专栏新智元

【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解

【新智元发自中国乌镇】乌镇人工智能峰会进入第二天,哈萨比斯、David Silver和Jeff Dean等谷歌高管纷纷发表演讲。他们对AlphaGo 2.0的新...

39750

扫码关注云+社区

领取腾讯云代金券