在之前的公众号我们介绍了谷歌足球环境(Google Research Football )
和其中 scenario 2 的 实验
这里分享的是 scenario 7 的一些实验结果。
对于scenario 7,可以比较快地找到的策略有两个:一个是直接带球突破后卫射门,另一个是传球给队友(左右两个队友中任意一个),然后队友射门。这两个策略容易学习到,但是得分只有0.8左右(80%概率得分)。
这里介绍一下我们训练找到的更有意思的策略,而且得分更高,可以到0.9。
1. 从左路带球,利用队友的牵制,找到最佳射门位置,射门得分。
2. 相应地,也可以从右路带球,寻找射门得分。
3. 从右路带球,利用队友的牵制,找到最佳射门位置,射门得分。
官方的Baseline里的PPO算法训练得分为0.6,IMPALA训练100M的得分为0.8。
训练算法和代码可以在我们的强化学习项目中找到,普通版本和并行版本链接: https://github.com/createamind/DRL
https://github.com/createamind/Distributed-DRL 欢迎加入或支持我们 :)