David Silver et al., Mastering the Game of Go with Deep Neural Networks and Tree Search, Nature, 2015. David Silver et al., Mastering the Game of Go without Human Knowledge,Nature, 2017.
三个深度策略网络 (Policy Networks), 一个深度估值网络(Value Network):
这里的正确率指,通过棋盘的状态预测下一步走棋,判断是否和高手下的是否一致。57%是很高的数字,因为上一次这样走、下一次还这样走的可能性比较低。
具体参数如下:
优化分析 :
棋盘特征:
上式中, pρ(at|st) 为在第t步走下一步at的概率,当胜利时,Zt 等于1,否则 Zt 等于0。
强化学习训练策略:
对手是比他差一点,然后他提升一点,让他的对手也提升一点。
训练细节和结果:
1. 输入特征比pσ 和 pρ少。
2. 网络结构更简单。
换句话说,这个网络以牺牲准确率换取速度。24.2%正确率,2um一步。
用pρ来预测z
步骤:
多次模拟未来棋局,然后选择在模拟中获胜次数最多的走法
蒙特卡洛树搜索 (Monte Carlo Tree Search)最终确定走棋。
自学习过程和神经网络训练过程
标签π的生成
目标函数