AlphaZero-机器学习人工学快报

windmaple

发布于 2018-03-07 10:28:46

7300

发布于 2018-03-07 10:28:46

大神David Silver（AlphoGo architecture，难道没去NIPS?）今天往arxiv上扔了篇文章，Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm（作者之一是Matthew Lai，象棋引擎Giraffe作者，硕士论文就是写的这个，所以现在在DeepMind。DeepMind真是从UCL大把挖人），直接把通用增强学习应用到国际象棋和日本象棋上，在Elo分数这个指标上击败现有的各种引擎，而且训练8小时就能击败AlphaGo Lee，个人觉得是向AGI迈了一大步（虽然路还很遥远）。他们的MCTS+RL（蒙特卡洛输搜索+增强学习）非常通用，跟AlphaGo Zero一样没有使用任何人类知识，以后只要是输赢规则明确，perfect information，轮流出手的游戏都可以套用，人类在这一类task上应该没有任何机会了

AlphaZero的核心算法思想是建立一个神经网络来同时输出policy（在给定盘面下下一步该怎么走）和value（给定盘面的期望赢率），RL常见算法。训练时候通过MCTS进行自我训练获取策略目标π和最终价值目标z，然后通过SGD优化损失函数（价值估算p的MSE+策略估算v的交叉熵+神经网络参数θ二阶正则项）来进行学习。其中策略目标π与根节点的访问次数相关，并由树搜索多次仿真产生，每一步通过当前网络的输出来指引。

神经网络的输入还是用带有时间序列的多个棋盘，加上一些其他的特征。action的表征因棋子各异，但是论文里说只要是合理的表征说不会差太多。产生自我学习棋谱的时候用了5000块第一代TPU，训练神经网络的时候用了64块第二代TPU，这算力真不是一般公司承担的起。

Silver还提到了AlphaZero每秒评估的棋位比Stockfish少很多，重点关注更有希望的棋位，这个跟人类很像。在每一步思考时间较长的时候，AlphaZero的分析更精准，所以之前方法用的alpha-beta搜索是不是真的那么有效，现在看来未必

Overall我还是很激动看到这么general的算法可以跳出围棋应用到象棋上，虽然这个工作没有AlphaGo刚出来时候那么groundbreaking，但是cross-domai generalization一直是机器学习的大痛点，这个工作提供了一个好的方向，希望以后能看到这方面更多的工作

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-12-06，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自机器学习人工学weekly 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

AlphaZero-机器学习人工学快报

AlphaZero-机器学习人工学快报

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐