比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!| 快讯

读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?MCTS(蒙特卡洛树搜索)能比得上alpha-beta搜索吗?许多研究者都曾对此表示怀疑。

但今天AlphaZero来了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切怀疑,通过使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:

  • 4小时就打败了国际象棋的最强程序Stockfish!
  • 2小时就打败了日本将棋的最强程序Elmo!
  • 8小时就打败了与李世石对战的AlphaGo v18!

在训练后,它面对Stockfish取得100盘不败的恐怖战绩,而且比之前的AlphaGo Zero也更为强大(根据论文后面的表格,训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero)。

这令人震惊,因为此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。

然而现在Stockfish就像一位武术大师,碰上了用枪的AlphaZero,被一枪毙命。

在reddit的国象版面的讨论中(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess)(http://t.cn/RY3x1kK),大家纷纷表示AlphaZero已经不是机器的棋了,是神仙棋,非常优美,富有策略性,更能深刻地谋划(maneuver),完全是在调戏Stockfish。

喜欢国象的同学注意了:AlphaZero不喜欢西西里防御。

训练过程极其简单粗暴。超参数,网络架构都不需要调整。无脑上算力,就能解决一切问题。

Stockfish和Elmo,每秒种需要搜索高达几千万个局面。

AlphaZero每秒种仅需搜索几万个局面,就将他们碾压。深度网络真是狂拽炫酷。

当然,训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了,需要5000个TPU v1作为生成自对弈棋谱。

不过,随着硬件的发展,这样的计算资源会越来越普及。未来的AI会有多强大,确实值得思考。

个人一直认为MCTS+深度网络是非常强的组合,因为MCTS可为深度网络补充逻辑性。我预测,这个组合未来会在更多场合显示威力,例如有可能真正实现自动写代码,自动数学证明。

为什么说编程和数学,因为这两个领域和下棋一样,都有明确的规则和目标,有可模拟的环境。

(在此之前,深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文,电脑以后自己都可以写出来)

也许在5到20年内,我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏哲学驱动设计

仓位管理 V4.3

13020
来自专栏华章科技

投资版AlphaGo系统探讨

在AlphaGo战胜人类围棋顶尖高手之际,本文简单探讨了投资AlphaGo系统模块与训练数据以及可行性。并将其实现逻辑与郝伯特•西蒙过程理性算法比较。文章最后讨...

11040
来自专栏CDA数据分析师

一名合格的数据分析师该怎样解释“买不起房”这件事?

? 北京很大,大到容得下两千多万人的吃喝拉撒睡。北京很小,小到装不下一个外地人的北漂梦。 我是一名北漂,来北京7年了,7年时间里不断地租房搬家,心里一直想买一...

196100
来自专栏CDA数据分析师

柯洁又输了,关于人工智能AlphaGo你需要知道些什么

原作者 Mirek Stanek 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 本月 23 日- 27 日,在乌镇主办“中国乌...

251100
来自专栏机器之心

观点 | 精通国际象棋的AI研究员:AlphaZero真的是一次突破吗?

374100
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[10.3]:自然语言处理——One-Hot编码

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

30170
来自专栏AI科技评论

重磅 | Facebook 田渊栋详解:深度学习如何进行游戏推理?

AI科技评论按:腾讯围棋 AI 程序“绝艺”(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军,一时间又引发了大家对 AI 和围棋的...

36770
来自专栏机器人网

AlphaGo再下一城,是否代表已经诞生了真正的智能?

在刚刚结束的围棋人机第二场比赛中,AlphaGo执黑再下一城,原来对李世石抱有很大期望的围棋界人士信心受到重创,同样作为职业九段的选手,柯洁甚至在第二场比赛未结...

29550
来自专栏新智元

机器自学72小时堪比国际大师,深度学习到底有多厉害?

本文是雷锋网2015年9月份发出的文章,由知社学术圈王鹏编译,原标题《深度学习机器自学国际象棋72小时,媲美国际大师》,文章来源:MIT Technolog...

29070
来自专栏新智元

【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,Deep...

45760

扫码关注云+社区

领取腾讯云代金券