比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类! PENG Bo

Photo by Jason Kempin/Getty Images for Agon Limited

作者 | 禀临科技联合创始人 PENG Bo

读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?

MCTS(蒙特卡洛树搜索)能比得上alpha-beta搜索吗?许多研究者都曾对此表示怀疑。

但今天AlphaZero来了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切怀疑,通过使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:

  • 4小时就打败了国际象棋的最强程序Stockfish!
  • 2小时就打败了日本将棋的最强程序Elmo!
  • 8小时就打败了与李世石对战的AlphaGo v18!

在训练后,它面对Stockfish取得100盘不败的恐怖战绩,而且比之前的AlphaGo Zero也更为强大(根据论文后面的表格,训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero)。

这令人震惊,因为此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。

然而现在Stockfish就像一位武术大师,碰上了用枪的AlphaZero,被一枪毙命。

在reddit的国象版面的讨论中(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess-https://www.reddit.com/r/chess/comments/7hvbaz/mastering_chess_and_shogi_by_selfplay_with_a/),大家纷纷表示AlphaZero已经不是机器的棋了,是神仙棋,优美,富有策略性,弃子灵活坚决,更能深刻地谋划(maneuver),完全是在调戏Stockfish。

国际象棋的基本规则,大家应该都知道,可以看这个Youtube视频的分析:https://www.youtube.com/watch?v=lb3_eRNoH_w 。Stockfish作为传统AI的代表,有人类设计的评估函数,整天想着“怎样怎样可在多少步后吃对方的子”。AlphaZero是“以德服人”,Stockfish贪吃就给Stockfish吃,没关系,AlphaZero有自己的想法:它直接让Stockfish的一堆子连家都出不了。Stockfish只能干瞪眼。AlphaZero想怎么走就怎么走,Stockfish疲于奔命,四处救火。这一切,正如AlphaGo此前在围棋上所显示的惊人控制力。

很有趣的是,和围棋的情况一样,AlphaZero证明了许多人类开局是正确的。不过,AlphaZero不喜欢西西里防御。

训练过程极其简单粗暴。超参数,网络架构都不需要调整。无脑上算力,就能解决一切问题。

Stockfish和Elmo,每秒种需要搜索高达几千万个局面。

AlphaZero每秒种仅需搜索几万个局面,就将他们碾压。深度网络真是狂拽炫酷。

当然,训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了,需要5000个TPU v1作为生成自对弈棋谱。

不过,随着硬件的发展,这样的计算资源会越来越普及。未来的AI会有多强大,确实值得思考。

个人一直认为MCTS+深度网络是非常强的组合,因为MCTS可为深度网络补充逻辑性。我预测,这个组合未来会在更多场合显示威力,例如有可能真正实现自动写代码,自动数学证明。

为什么说编程和数学,因为这两个领域和下棋一样,都有明确的规则和目标,有可模拟的环境。

(在此之前,深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文,电脑以后自己都可以写出来)

也许在5到20年内,我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......

原文地址:https://zhuanlan.zhihu.com/p/31749249

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

重磅|如何利用NBA球员推文预测其球场表现?

24780
来自专栏新智元

【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

来源: 心有麟熙 作者: Jim 范麟熙 编辑:张乾 【新智元导读】斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)以轻松有趣的方式介绍了强化学习和游...

45380
来自专栏机器人网

AlphaGo再下一城,是否代表已经诞生了真正的智能?

在刚刚结束的围棋人机第二场比赛中,AlphaGo执黑再下一城,原来对李世石抱有很大期望的围棋界人士信心受到重创,同样作为职业九段的选手,柯洁甚至在第二场比赛未结...

29550
来自专栏自然语言处理

Google Plus 文本提取与分析4

特征词/关键词提取最简单最基础的就是TFIDF,记得5年前我同学让我帮做DI-TFIDF的论文,也就只多了个类内离散度(DI),今年阿里校招笔试题都有,用map...

11210
来自专栏哲学驱动设计

仓位管理 V4.3

13120
来自专栏深度学习自然语言处理

对于应聘人工智能相关算法岗来说,顶会论文和算法比赛哪个更重要?

我平时逛知乎还是比较多的,今早又发现了一篇值得我和大家看的一篇文章,我就顺便整理下,希望能解决下大家关于发论文还是比赛的一些纠结。

39320
来自专栏专知

【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!

【导读】从AlphoGo Zero 到AlphaZero只是少了一个词“围棋”(Go), 但是背后却代表着Hassabis将和他的DeepMind继续朝着“创造...

380100
来自专栏机器之心

观点 | 精通国际象棋的AI研究员:AlphaZero真的是一次突破吗?

376100
来自专栏大数据文摘

大数据预测世界杯 八种方法谁靠谱

5.4K70
来自专栏PPV课数据科学社区

【新闻】:大数据可否算准世界杯?

人类一思考,上帝就发笑;世界杯一来到,上帝笑得血压也升高。倒不是足球踢得多欢乐,而是世界杯预测太恶搞。   我略微总结了下,剔除掉贝利和大校这种...

27350

扫码关注云+社区

领取腾讯云代金券