技术架构分析：攻克Dota2的OpenAI-Five

CreateAMind

发布于 2018-07-20 14:30:49

1.3K0

发布于 2018-07-20 14:30:49

文章被收录于专栏：CreateAMind

文：CreateAMind陈七山

OpenAI昨日发布研究成果，宣布Dota2 5v5在限定条件下（英雄阵容固定，部分道具和功能禁用）战胜人类半职业选手。本文主要对其模型技术架构做一些分析总结。

1. 模型输入与输出

模型的输入是使用RAM(内存信息)，如位置坐标，技能血量数值状态等，而不是图像像素信息。

模型输入主要分为两个部分：

模型的输出即是指AI所选择的动作，包括移动，攻击释放技能等。OpenAI将连续的动作，离散化对应到网格，并对各种技能定制化释放动作，以减少动作空间的大小。以下图为例，AI要释放一个攻击技能，需要选取这个技能，并选择一个目标单位周围网格内的一个位置：

值得注意的是，在Dota2游戏内还有其他动作，例如操控信使，购买装备，技能升级与天赋等，这些都是人工定义好，而不需AI决策的。而操控幻象分身，召唤物等涉及更复杂的多单位操作，则未在OpenAI当前版本的考虑范围内。

2. 网络架构与训练方式

网络架构架构局部如下图：

模型大图下载链接：https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf

总的来看，大量信息通过连接(concatenate)与全连接层(dense)层进行综合，作为1024维的LSTM的输入。LSTM综合时序信息，并输出决策向量，再用决策向量解构出详细动作。

训练方式：

奖励(reward)设计：

3. 总结

用强化学习玩Dota2需要面对4个挑战：状态空间大，局面不完全可见（有视野限制），动作空间大，时间尺度大。

近期论文中提出的解决方案，大致有以下几个方向：

而神奇的是，OpenAI没有使用上述任一方法，而仅仅使用高γ值的PPO基础算法，就解决了这些问题。这说明凭借非常大量的计算，强化学习的基础算法也能突破这些挑战。

OpenAI没有使用的WorldModels，MCTS，IL，HRL等方法，既是学术界研究的重点方向，也是OpenAI-Five潜在的提升空间。这些更高效的方法若被合理应用，可以加快模型的学习速度，增强模型的迁移能力，并帮助模型突破当前的限制。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-06-27，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度