AlphaZero-机器学习人工学快报

大神David Silver(AlphoGo architecture,难道没去NIPS?)今天往arxiv上扔了篇文章,Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(作者之一是Matthew Lai,象棋引擎Giraffe作者,硕士论文就是写的这个,所以现在在DeepMind。DeepMind真是从UCL大把挖人),直接把通用增强学习应用到国际象棋和日本象棋上,在Elo分数这个指标上击败现有的各种引擎,而且训练8小时就能击败AlphaGo Lee,个人觉得是向AGI迈了一大步(虽然路还很遥远)。他们的MCTS+RL(蒙特卡洛输搜索+增强学习)非常通用,跟AlphaGo Zero一样没有使用任何人类知识,以后只要是输赢规则明确,perfect information,轮流出手的游戏都可以套用,人类在这一类task上应该没有任何机会了

AlphaZero的核心算法思想是建立一个神经网络来同时输出policy(在给定盘面下下一步该怎么走)和value(给定盘面的期望赢率),RL常见算法。训练时候通过MCTS进行自我训练获取策略目标π和最终价值目标z,然后通过SGD优化损失函数(价值估算p的MSE+策略估算v的交叉熵+神经网络参数θ二阶正则项)来进行学习。其中策略目标π与根节点的访问次数相关,并由树搜索多次仿真产生,每一步通过当前网络的输出来指引。

神经网络的输入还是用带有时间序列的多个棋盘,加上一些其他的特征。action的表征因棋子各异,但是论文里说只要是合理的表征说不会差太多。产生自我学习棋谱的时候用了5000块第一代TPU,训练神经网络的时候用了64块第二代TPU,这算力真不是一般公司承担的起。

Silver还提到了AlphaZero每秒评估的棋位比Stockfish少很多,重点关注更有希望的棋位,这个跟人类很像。在每一步思考时间较长的时候,AlphaZero的分析更精准,所以之前方法用的alpha-beta搜索是不是真的那么有效,现在看来未必

Overall我还是很激动看到这么general的算法可以跳出围棋应用到象棋上,虽然这个工作没有AlphaGo刚出来时候那么groundbreaking,但是cross-domai generalization一直是机器学习的大痛点,这个工作提供了一个好的方向,希望以后能看到这方面更多的工作

原文发布于微信公众号 - 机器学习人工学weekly(MLandHuman)

原文发表时间:2017-12-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

刚刚,DeepMind被IJCAI授予杰出成就奖,因为他家把AlphaGo Zero做成了暖心的新垣结衣?

啥都别说,先看图好不好 首先,恭喜DeepMind荣获大奖。 其次,获奖评语中,一定不会少的是对他家新品AlphaGo Zero的大加赞叹。 这货3天走完人类的...

36414
来自专栏AI科技评论

李开复、马少平、周志华、田渊栋都是怎么看AlphaGo Zero的?

AI科技评论消息,北京时间10月19日凌晨,Deepmind在Nature上发布论文《Mastering the game of Go without huma...

3497
来自专栏企鹅号快讯

机器之心年度盘点:2017年人工智能领域度备受关注的科研成果

机器之心原创 参与:李泽南、李亚洲、黄小天 2016 年,人工智能行业经历了语音识别准确率飙升、神经机器翻译重大突破、图像风格迁移的兴盛。2017 年,人们对于...

19810
来自专栏新智元

【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!

围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo...

35511
来自专栏互联网杂技

AlphaGo的算法等技术分析

最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。 ? AlphaGo这个系统主要由几个部分组成: 1、走棋网络(Policy N...

3658
来自专栏机器人网

手把手教你三天训练出自己的AI围棋大师

过去一年,AI领域最exciting的进展可能要数AlphaGo的不断进步。AlphaGo Zero不仅提出了新的网络架构,也带来了一些新的神经网络训练技巧。 ...

3296
来自专栏AI科技大本营的专栏

围棋天团告负!1v5英雄“狗”背后的原理概括

今天,中国围棋峰会进行到了第四天,AlphaGo挑战两种未曾体验过的比赛:人机配对赛和1v5的团体赛。 对于全新的比赛形式,棋圣聂卫平与AlphaGo之父哈萨比...

36411
来自专栏机器之心

机器之心年度盘点:2017年人工智能领域度备受关注的科研成果

3619
来自专栏机器之心

DeepMind AlphaGo Zero引爆业内,创造者现身Reddit问答

28510
来自专栏新智元

AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(一)

? 李理,出门问问NLP工程师 编者按:李世石与Google Deepmind AlphaGo对战在即,围棋界和人工智能界对结果各有预测,但对于程序员来说,...

3795

扫码关注云+社区