前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AlphaGo介绍

AlphaGo介绍

作者头像
小小杨
发布2021-10-13 10:14:30
1.2K0
发布2021-10-13 10:14:30
举报
文章被收录于专栏:下落木

两篇论文

David Silver et al., Mastering the Game of Go with Deep Neural Networks and Tree Search, Nature, 2015. David Silver et al., Mastering the Game of Go without Human Knowledge,Nature, 2017.

三个深度策略网络 (Policy Networks), 一个深度估值网络(Value Network):

深度策略网络 pσ

(Supervised Learning Policy Network)

  • 输入:当前棋盘状态。
  • 输出:下一步的走法。
  • 训练数据:KGS Go SERVER上的 三亿个样本。
  • 网络设置:13层深度网络。
  • 输入的特征:
  • 结果:57%正确率,3ms一步

这里的正确率指,通过棋盘的状态预测下一步走棋,判断是否和高手下的是否一致。57%是很高的数字,因为上一次这样走、下一次还这样走的可能性比较低。

具体参数如下:

优化分析 :

棋盘特征:

深度策略网络 pρ

(Reinforcement Learning Policy Network)

  1. 网络结构、输入输出与 pσ 完全一样。
  2. 一开始初始化网络参数ρ = σ
  3. 参数更新策略,自己和自己下棋,不断下下去直到分出胜负。

上式中, pρ(at|st) 为在第t步走下一步at的概率,当胜利时,Zt 等于1,否则 Zt 等于0。

强化学习训练策略:

对手是比他差一点,然后他提升一点,让他的对手也提升一点。

训练细节和结果:

深度策略网络pπ

(Rollout Policy Network)

1. 输入特征比pσ 和 pρ少。

2. 网络结构更简单。

换句话说,这个网络以牺牲准确率换取速度。24.2%正确率,2um一步。

深度估值网络vθ

(Value Network)

  1. 输入:当前棋盘状态 (与 pσ输入一样),以及执黑或执白。
  2. 输出:获胜的概率(一个0到1的数)
  3. 参数更新策略:

用pρ来预测z

步骤:

下棋方法 - 蒙特卡洛树搜索

(Monte Carlo Tree Search)

多次模拟未来棋局,然后选择在模拟中获胜次数最多的走法

蒙特卡洛树搜索 (Monte Carlo Tree Search)最终确定走棋。

  1. 一个是专家的意见,一个是真实的走法,兰姆达是其平衡因子。
  2. 除以N是赋予其随机性,就是不要陷入局部走法,给其他位置以一定的机会

AlphaGo Zero 的改进

  1. 完全不需要人类棋谱,采用自己和自己下棋的方式学习。
  2. 将走棋网络和估值网络合并为一个网络:

自学习过程和神经网络训练过程

标签π的生成

目标函数

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 下落木 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 两篇论文
  • 深度策略网络 pσ
  • (Supervised Learning Policy Network)
  • 深度策略网络 pρ
  • (Reinforcement Learning Policy Network)
  • 深度策略网络pπ
  • (Rollout Policy Network)
  • 深度估值网络vθ
  • (Value Network)
  • 下棋方法 - 蒙特卡洛树搜索
  • (Monte Carlo Tree Search)
  • AlphaGo Zero 的改进
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档