AlphaZero-机器学习人工学快报

大神David Silver(AlphoGo architecture,难道没去NIPS?)今天往arxiv上扔了篇文章,Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(作者之一是Matthew Lai,象棋引擎Giraffe作者,硕士论文就是写的这个,所以现在在DeepMind。DeepMind真是从UCL大把挖人),直接把通用增强学习应用到国际象棋和日本象棋上,在Elo分数这个指标上击败现有的各种引擎,而且训练8小时就能击败AlphaGo Lee,个人觉得是向AGI迈了一大步(虽然路还很遥远)。他们的MCTS+RL(蒙特卡洛输搜索+增强学习)非常通用,跟AlphaGo Zero一样没有使用任何人类知识,以后只要是输赢规则明确,perfect information,轮流出手的游戏都可以套用,人类在这一类task上应该没有任何机会了

AlphaZero的核心算法思想是建立一个神经网络来同时输出policy(在给定盘面下下一步该怎么走)和value(给定盘面的期望赢率),RL常见算法。训练时候通过MCTS进行自我训练获取策略目标π和最终价值目标z,然后通过SGD优化损失函数(价值估算p的MSE+策略估算v的交叉熵+神经网络参数θ二阶正则项)来进行学习。其中策略目标π与根节点的访问次数相关,并由树搜索多次仿真产生,每一步通过当前网络的输出来指引。

神经网络的输入还是用带有时间序列的多个棋盘,加上一些其他的特征。action的表征因棋子各异,但是论文里说只要是合理的表征说不会差太多。产生自我学习棋谱的时候用了5000块第一代TPU,训练神经网络的时候用了64块第二代TPU,这算力真不是一般公司承担的起。

Silver还提到了AlphaZero每秒评估的棋位比Stockfish少很多,重点关注更有希望的棋位,这个跟人类很像。在每一步思考时间较长的时候,AlphaZero的分析更精准,所以之前方法用的alpha-beta搜索是不是真的那么有效,现在看来未必

Overall我还是很激动看到这么general的算法可以跳出围棋应用到象棋上,虽然这个工作没有AlphaGo刚出来时候那么groundbreaking,但是cross-domai generalization一直是机器学习的大痛点,这个工作提供了一个好的方向,希望以后能看到这方面更多的工作

原文发布于微信公众号 - 机器学习人工学weekly(MLandHuman)

原文发表时间:2017-12-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

干货 | “回归分析”真的算是“机器学习”吗?

是什么将“统计”从“机器学习”中分离出来的?个被讨论过无数次的问题。关于这个问题的文章有很多,人们对其好坏莫衷一是。但是我发现,在“统计”和“机器学习”的争论上...

3007
来自专栏新智元

Open AI 研究主管:实现无监督学习的最佳路径或是聚焦模型

【新智元导读】师从Hinton,吴恩达的斯坦福研究小组博士后,谷歌大脑顶级研究者,加拿大史上第一位 Google Fellow,DNN Research 创始人...

3336
来自专栏专知

一文看全ACL 2018亮点:表示学习和更具挑战性环境下的模型评价

【导读】第56届ACL大会于2018年7月15日至20日在澳大利亚墨尔本举行,Sebastian Ruder参加了会议并发表了三篇论文,并分享了他的参会感想,点...

800
来自专栏新智元

【深度解密】量子机器学习的研究进展

作者是来自英国布里斯托大学的量子工程中心研究员,布里斯托大学在量子力学和量子计算方面有很强的建树,诺贝尔物理学奖获得者、量子力学的奠基者之一保罗·狄拉克,中国科...

41510
来自专栏向治洪

[置顶] 机器学习简介及常用算法

概念 什么是机器学习? 机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多...

1778
来自专栏目标检测和深度学习

深度学习简述

作为人工智能领域里最热门的概念,深度学习会在未来对我们的生活产生显著的影响,或许现在已经是了,从 AlphaGo 到 iPhone X 上的人脸识别(FaceI...

2736
来自专栏崔庆才的专栏

干货 | 给妹纸的深度学习教学——从这里出发

或许你第一个想弄明白的问题是人工智能(AI),机器学习(ML),深度学习(DL)三者的区别和联系,下图清晰明了地告诉你。 ? 1. 什么是机器学习 从小学开始...

40711
来自专栏机器之心

自然语言处理最新教材开放下载,乔治亚理工大学官方推荐

1073
来自专栏新智元

【自监督学习机器人】谷歌大脑首次实现机器人端到端模仿人类动作 | 视频

【新智元导读】 机器人仅需观察人类行为就能模仿出一模一样的动作,这一机器人领域发展的长期目标最近被谷歌大脑“解锁”。在新发布的一项研究中,谷歌大脑团队介绍了他们...

3455
来自专栏CSDN技术头条

入坑机器学习,必知必会的十个知识点

这篇文章主要面向的是非专业的读者,简单直白地介绍了机器学习的概念、内涵、以及机器学习的相关问题。对于专业人士而言也可以依据这篇文章对机器学习的概念做更深入的理解...

1877

扫描关注云+社区