AlphaZero-机器学习人工学快报

大神David Silver(AlphoGo architecture,难道没去NIPS?)今天往arxiv上扔了篇文章,Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(作者之一是Matthew Lai,象棋引擎Giraffe作者,硕士论文就是写的这个,所以现在在DeepMind。DeepMind真是从UCL大把挖人),直接把通用增强学习应用到国际象棋和日本象棋上,在Elo分数这个指标上击败现有的各种引擎,而且训练8小时就能击败AlphaGo Lee,个人觉得是向AGI迈了一大步(虽然路还很遥远)。他们的MCTS+RL(蒙特卡洛输搜索+增强学习)非常通用,跟AlphaGo Zero一样没有使用任何人类知识,以后只要是输赢规则明确,perfect information,轮流出手的游戏都可以套用,人类在这一类task上应该没有任何机会了

AlphaZero的核心算法思想是建立一个神经网络来同时输出policy(在给定盘面下下一步该怎么走)和value(给定盘面的期望赢率),RL常见算法。训练时候通过MCTS进行自我训练获取策略目标π和最终价值目标z,然后通过SGD优化损失函数(价值估算p的MSE+策略估算v的交叉熵+神经网络参数θ二阶正则项)来进行学习。其中策略目标π与根节点的访问次数相关,并由树搜索多次仿真产生,每一步通过当前网络的输出来指引。

神经网络的输入还是用带有时间序列的多个棋盘,加上一些其他的特征。action的表征因棋子各异,但是论文里说只要是合理的表征说不会差太多。产生自我学习棋谱的时候用了5000块第一代TPU,训练神经网络的时候用了64块第二代TPU,这算力真不是一般公司承担的起。

Silver还提到了AlphaZero每秒评估的棋位比Stockfish少很多,重点关注更有希望的棋位,这个跟人类很像。在每一步思考时间较长的时候,AlphaZero的分析更精准,所以之前方法用的alpha-beta搜索是不是真的那么有效,现在看来未必

Overall我还是很激动看到这么general的算法可以跳出围棋应用到象棋上,虽然这个工作没有AlphaGo刚出来时候那么groundbreaking,但是cross-domai generalization一直是机器学习的大痛点,这个工作提供了一个好的方向,希望以后能看到这方面更多的工作

原文发布于微信公众号 - 机器学习人工学weekly(MLandHuman)

原文发表时间:2017-12-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了 | OpenAI论文+代码

1161
来自专栏专知

【ECCV2018教程】220页深度神经网络训练归一化: 数学基础与理论、挑战(附pdf下载)

【导读】全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)于 9 月 8 -14 日...

523
来自专栏机器学习算法与理论

基于landmark的疲劳检测

        经查阅相关文献,疲劳在人体面部表情中表现出大致三个类型:打哈欠(嘴巴张大且相对较长时间保持这一状态)、眨眼(或眼睛微闭,此时眨眼次数增多,且眨眼...

2965
来自专栏思影科技

渐进型多发硬化症(PPMS)相关的rich-club失连

来自INIMS的Jan-Patrick Stellmann等人在neurology期刊上发表了一篇关于MS的结构脑网络研究,研究主要探寻了病人结构脑网络连接的组...

3247
来自专栏量子位

用DensePose,教照片里的人学跳舞,系群体鬼畜 | ECCV 2018

Facebook团队,把负责感知的多人姿势识别模型DensePose,与负责生成的深度生成网络结合起来。

733
来自专栏机器学习算法全栈工程师

机器学习模型,能分清川菜和湘菜吗?

一个地区的文化和当地的特色食物总是分不开关系,可以说小到村庄,大到国家,每个地方都有自己的“味道”。

683
来自专栏新智元

【ACL2016 终极盘点】终身成就奖得主:我还没玩深度学习

【新智元导读】在德国柏林召开的计算机语言顶级会议ACL2016将于当地时间明天(8月12日)闭幕。今天,大会公布了最佳论文,一篇关于词态学的论文获此殊荣。此外,...

3367
来自专栏AI科技评论

观点 | Ian Goodfellow:关于GANs的那些不为人知的事儿

AI 科技评论按:近日,「GANs 之父」Ian Goodfellow 做客国外一档「你问我答」(Ask Me Anything)的线上问答节目,提问者可以直接...

3685
来自专栏大数据文摘

重磅译制 | 更新:MIT 6.S094自动驾驶课程第3讲(2)CNN应用

944
来自专栏AI2ML人工智能to机器学习

平均场思想

首先要说明的, 这里的平均场是指机器学习中的平均场, 不是物理里面的平均场(请物理的同胞出门右拐,当然也可以贻笑大方下下)。 有人说,这有什么差异呢? Yan...

822

扫码关注云+社区