读AlphaZero论文随想

感觉才过一个月多,AlphaGo又进一步,推出了AlphaZero。这次除了会下围棋、还会国际象棋和将棋。做到了道德经里说的“一生多”。

据了解,AlphaZero算法可以再8个小时训练击败李世石版本AlphaGo;12小时训练击败世界顶级的国际象棋程序Stockfish;14小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后,带给我们的又一全新算法,它是“更通用的版本”。

文章内容依旧是很短,不到5页的内容,基本思路与上一个版本AlphaGo Zero类似,采取将每一步蒙特卡洛数搜索MCTS的结果作为指导,优化神经网络参数,优化的误差函数就是文中的公式(一),也是文中唯一一个公式,与上一个版本一样。而且AlphaZero应用在国际象棋、将棋和围棋中,都使用同样的算法设置、网络架构和超参数。唯一不同是神经网络的输入不同。例如围棋是19*19*17;而国际象棋是8*8*119。因此,我个人估计,这个版本的文章不会再发表在《Nature》上了,毕竟创新之处不多。

这是电脑玩棋牌游戏的终极版本吗?

我觉得这还不是,因为每次落子需要在神经网络的结果基础上,再做一次优化(蒙特卡洛数搜索MCTS一次),才能确定最终的落子位置。最终的版本我个人觉得,应该是不需要MCTS这个步骤,用神经网络的输出值作为落子结果。甚至可以更进一步,将价值估计v都去掉。

AlphaZero与AlphaGo Zero的根本区别?

从AlphaGO(对战李世石版本)、Alpha Mater(网络对战60局版本)、AlphaGo Zero(对战柯洁版本)到现在的AlphaZero。我们看到电脑下棋程序再不断进步,经历了将策略价值网络和二为一,到完全不用人类棋谱为训练数据。这次AlphaZero最大的进步是训练过程,从以前的阶梯式训练(每55%胜率获胜的玩家作为下一轮产生训练数据的模型),到连续训练(也就是维护单一的神经网络不断迭代更新),省去评估的环节。

谷歌的厉害之处在哪儿?

有钱就是人性。尤其是训练阶段动用了5000个TPU生成自我对弈,使用64个第二代TPU训练神经网络。这也都是高校研究者望尘莫及的。我们这些研究者完全能读懂文章,也了解实现细节,但是没钱。。。这个双十一我读博实验室的师弟们不是抢衣服抢电器,而是在抢购GPU,学生命苦啊,做点实验太寒碜了。

未来Alpha还会继续在哪里发力?

我个人看好游戏,因为尤其的动作参数序列化,与围棋完全一致。只是游戏的搜索空间更大,依靠谷歌财大气粗,训练模型我觉得是承受得了的。至于金融行业,Alpha的这套搞法不看好,一是自己产生的数据无法模型有上亿投资者的行为产生的数据,二是没有唯一的决策对错标准,模型误差函数定义不出来。

本文来自企鹅号 - AI启蒙研究院媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(152)-生产物流-生产线物流规划

企业的运营过程中,物流、资金流和信息流贯穿始终,三位一体,不可分割。物流是最基本的活动,相对于信息流和资金流,物流规划的科学性对企业的整体效益有着决定性的影响。...

2536
来自专栏新智元

【深度】基于论文,对谷歌 TPU 的最全分析和专业评价

【新智元导读】本文以 Google 最新公开的 TPU 论文《在数据中心中对张量处理器进行性能分析》的译本为基础,对该论文及 TPU 进行了评价。 源起 2...

3934
来自专栏机器之心

英伟达Volta架构深度解读:专为深度学习而生的Tensor Core到底是什么?

机器之心报道 编辑:CZ、Jenny Huang、李泽南、吴攀、蒋思源 当地时间 5 月 8-11 日,英伟达在加州圣何塞举行了 2017 年的 GPU 技术大...

3838
来自专栏PPV课数据科学社区

【工具】为什么有些公司在机器学习业务方面倾向使用 R + Hadoop 方案?

引言:众所周知,R在解决统计学问题方面无与伦比。但是R在数据量达到2G以上速度就很慢了,于是就催生出了与Hadoop相结合跑分布式算法这种解决方案,但是,pyt...

2737
来自专栏机器之心

业界 | 微软推出深度学习加速平台「Project Brainwave」:FPGA驱动实时人工智能

选自微软博客 机器之心编译 参与:路雪、黄小天、蒋思源 近日在 Hot Chips 2017 上,微软团队推出了一个新的深度学习加速平台,其代号为脑波计划(Pr...

2987
来自专栏ATYUN订阅号

超级计算模拟和机器学习:使用更加清洁高效的工作流体发电

在传统的蒸汽动力装置中,剩余的水必须与发电蒸汽分开。这一过程限制了效率,而在早期的发电厂,可能会发生剧烈的变化,导致爆炸。在20世纪20年代,Mark Bens...

822
来自专栏DevOps时代的专栏

【开源公告】腾讯织云Metis智能运维学件平台正式开源

“Metis”取名自希腊神话中的智慧女神墨提斯,全称为:腾讯织云 Metis 智能运维学件平台。“织云”指的是腾讯智能一体化运维平台,“学件”的概念由南京大学周...

973
来自专栏腾讯开源的专栏

【开源公告】腾讯织云Metis智能运维学件平台正式开源

1 项目描述 “Metis”取名自希腊神话中的智慧女神墨提斯,全称为:腾讯织云 Metis 智能运维学件平台。“织云”指的是腾讯智能一体化运维平台,“学件”...

5293
来自专栏EAWorld

边缘计算与云计算的未来

Edge Computing and the Future of the Cloud

1434
来自专栏IT大咖说

从 Google TFX 到 Kubeflow:容器化交付敏捷 AI 平台

内容来源:2018 年 04 月 22 日,才云科技创始人兼CEO张鑫在“全球首发| Kubeflow Meetup 4.22 杭州场,开拓 AI 新视野”进行...

1113

扫码关注云+社区