读AlphaZero论文随想

感觉才过一个月多,AlphaGo又进一步,推出了AlphaZero。这次除了会下围棋、还会国际象棋和将棋。做到了道德经里说的“一生多”。

据了解,AlphaZero算法可以再8个小时训练击败李世石版本AlphaGo;12小时训练击败世界顶级的国际象棋程序Stockfish;14小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后,带给我们的又一全新算法,它是“更通用的版本”。

文章内容依旧是很短,不到5页的内容,基本思路与上一个版本AlphaGo Zero类似,采取将每一步蒙特卡洛数搜索MCTS的结果作为指导,优化神经网络参数,优化的误差函数就是文中的公式(一),也是文中唯一一个公式,与上一个版本一样。而且AlphaZero应用在国际象棋、将棋和围棋中,都使用同样的算法设置、网络架构和超参数。唯一不同是神经网络的输入不同。例如围棋是19*19*17;而国际象棋是8*8*119。因此,我个人估计,这个版本的文章不会再发表在《Nature》上了,毕竟创新之处不多。

这是电脑玩棋牌游戏的终极版本吗?

我觉得这还不是,因为每次落子需要在神经网络的结果基础上,再做一次优化(蒙特卡洛数搜索MCTS一次),才能确定最终的落子位置。最终的版本我个人觉得,应该是不需要MCTS这个步骤,用神经网络的输出值作为落子结果。甚至可以更进一步,将价值估计v都去掉。

AlphaZero与AlphaGo Zero的根本区别?

从AlphaGO(对战李世石版本)、Alpha Mater(网络对战60局版本)、AlphaGo Zero(对战柯洁版本)到现在的AlphaZero。我们看到电脑下棋程序再不断进步,经历了将策略价值网络和二为一,到完全不用人类棋谱为训练数据。这次AlphaZero最大的进步是训练过程,从以前的阶梯式训练(每55%胜率获胜的玩家作为下一轮产生训练数据的模型),到连续训练(也就是维护单一的神经网络不断迭代更新),省去评估的环节。

谷歌的厉害之处在哪儿?

有钱就是人性。尤其是训练阶段动用了5000个TPU生成自我对弈,使用64个第二代TPU训练神经网络。这也都是高校研究者望尘莫及的。我们这些研究者完全能读懂文章,也了解实现细节,但是没钱。。。这个双十一我读博实验室的师弟们不是抢衣服抢电器,而是在抢购GPU,学生命苦啊,做点实验太寒碜了。

未来Alpha还会继续在哪里发力?

我个人看好游戏,因为尤其的动作参数序列化,与围棋完全一致。只是游戏的搜索空间更大,依靠谷歌财大气粗,训练模型我觉得是承受得了的。至于金融行业,Alpha的这套搞法不看好,一是自己产生的数据无法模型有上亿投资者的行为产生的数据,二是没有唯一的决策对错标准,模型误差函数定义不出来。

原文发布于微信公众号 - AI启蒙研究院(AIEvolve)

原文发表时间:2017-12-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

DeepMind AlphaGo Zero引爆业内,创造者现身Reddit问答

30910
来自专栏企鹅号快讯

读AlphaZero论文随想

感觉才过一个月多,AlphaGo又进一步,推出了AlphaZero。这次除了会下围棋、还会国际象棋和将棋。做到了道德经里说的“一生多”。 据了解,AlphaZe...

2557
来自专栏企鹅号快讯

机器之心年度盘点:2017年人工智能领域度备受关注的科研成果

机器之心原创 参与:李泽南、李亚洲、黄小天 2016 年,人工智能行业经历了语音识别准确率飙升、神经机器翻译重大突破、图像风格迁移的兴盛。2017 年,人们对于...

24710
来自专栏机器学习人工学weekly

AlphaZero-机器学习人工学快报

大神David Silver(AlphoGo architecture,难道没去NIPS?)今天往arxiv上扔了篇文章,Mastering Chess and...

37610
来自专栏人工智能头条

AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(一)

2335
来自专栏AI科技评论

李开复、马少平、周志华、田渊栋都是怎么看AlphaGo Zero的?

AI科技评论消息,北京时间10月19日凌晨,Deepmind在Nature上发布论文《Mastering the game of Go without huma...

3707
来自专栏CSDN技术头条

AlphaGo的大数据等技术分析

AlphaGo的分析 最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。 AlphaGo这个系统主要由几个部分组成: 1. 走棋网...

1918
来自专栏新智元

AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(一)

? 李理,出门问问NLP工程师 编者按:李世石与Google Deepmind AlphaGo对战在即,围棋界和人工智能界对结果各有预测,但对于程序员来说,...

4075
来自专栏新智元

【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!

围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo...

38211
来自专栏机器人网

手把手教你三天训练出自己的AI围棋大师

过去一年,AI领域最exciting的进展可能要数AlphaGo的不断进步。AlphaGo Zero不仅提出了新的网络架构,也带来了一些新的神经网络训练技巧。 ...

4056

扫码关注云+社区

领取腾讯云代金券