前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AlphaZero-机器学习人工学快报

AlphaZero-机器学习人工学快报

作者头像
windmaple
发布2018-03-07 10:28:46
7080
发布2018-03-07 10:28:46
举报

大神David Silver(AlphoGo architecture,难道没去NIPS?)今天往arxiv上扔了篇文章,Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(作者之一是Matthew Lai,象棋引擎Giraffe作者,硕士论文就是写的这个,所以现在在DeepMind。DeepMind真是从UCL大把挖人),直接把通用增强学习应用到国际象棋和日本象棋上,在Elo分数这个指标上击败现有的各种引擎,而且训练8小时就能击败AlphaGo Lee,个人觉得是向AGI迈了一大步(虽然路还很遥远)。他们的MCTS+RL(蒙特卡洛输搜索+增强学习)非常通用,跟AlphaGo Zero一样没有使用任何人类知识,以后只要是输赢规则明确,perfect information,轮流出手的游戏都可以套用,人类在这一类task上应该没有任何机会了

AlphaZero的核心算法思想是建立一个神经网络来同时输出policy(在给定盘面下下一步该怎么走)和value(给定盘面的期望赢率),RL常见算法。训练时候通过MCTS进行自我训练获取策略目标π和最终价值目标z,然后通过SGD优化损失函数(价值估算p的MSE+策略估算v的交叉熵+神经网络参数θ二阶正则项)来进行学习。其中策略目标π与根节点的访问次数相关,并由树搜索多次仿真产生,每一步通过当前网络的输出来指引。

神经网络的输入还是用带有时间序列的多个棋盘,加上一些其他的特征。action的表征因棋子各异,但是论文里说只要是合理的表征说不会差太多。产生自我学习棋谱的时候用了5000块第一代TPU,训练神经网络的时候用了64块第二代TPU,这算力真不是一般公司承担的起。

Silver还提到了AlphaZero每秒评估的棋位比Stockfish少很多,重点关注更有希望的棋位,这个跟人类很像。在每一步思考时间较长的时候,AlphaZero的分析更精准,所以之前方法用的alpha-beta搜索是不是真的那么有效,现在看来未必

Overall我还是很激动看到这么general的算法可以跳出围棋应用到象棋上,虽然这个工作没有AlphaGo刚出来时候那么groundbreaking,但是cross-domai generalization一直是机器学习的大痛点,这个工作提供了一个好的方向,希望以后能看到这方面更多的工作

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习人工学weekly 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档