看OpenAI如何利用强化学习破解现实决策问题的复杂性和连续性

用户7623498

发布于 2020-08-04 14:41:36

6860

发布于 2020-08-04 14:41:36

导读：长周期序列决策、局部可观测、决策因素多维性和关联性、高维度行动空间等复杂性和连续性问题是现实世界中进行决策经常要面对的，强化学习在很多场景下已经被证明了有效性，OpenAI近期更是在Dota2中打败了人类的世界冠军OG队伍，将强化学习的能力提高到了新的水准，更长的行动序列、更高的决策复杂度、多智能体协同等。让我们来看看奥妙何在吧。论文下载见文末。

面向问题：两队零和博弈在现实复杂环境中的决策挑战

关键要素：规模化

核心方法：强化学习、LSTM

概览

2019年4月13日，OpenAI Five（OpenAI开发的DOTA2的AI名字）成为第一个在电子竞技中打败世界冠军的AI系统。Dota2游戏对AI系统提出了更高的挑战，如长周期行动序列、不完备信息、复杂连续的状态行动空间等，所有挑战将会成为更加强大的AI系统的核心。

OpenAI Five大幅提升了当前的强化学习技术，将其提升到可以从每2秒200万帧批次中学习。我们开发了分布式训练系统和工具以支撑我们持续10个月对OpenAI Five的训练。通过打败Dota 2的世界冠军队伍OG，OpenAI Five证明了自我对抗强化学习可以在复杂任务上超越人类表现。

背景

AI长期以来的目标就是解决现实世界的高阶挑战。游戏在近几十年成为了解决这个问题的重要依托，从双陆棋（1992）到国际象棋（1997），再到雅加达游戏（2013）。在2016年，AlphaGo在围棋中打败了世界冠军，使用的是强化学习和蒙特卡洛树搜索。最近几年，强化学习模型解决了各种机器人控制、文本摘要、视频游戏如星际争霸、我的世界等。

前期AI的里程碑如国际象棋、围棋、复杂视频游戏等，已经开始摸到了现实世界的复杂性和连续性本质。Dota2是一种多玩家实时策略游戏，由Valve公司在2013年发布，在2013年到2019年期间，平均有50万到100万在线玩家。这个游戏中有全职的专业玩家，2019年国际比赛的奖金池已经达到3500万美元（世界电子竞技中奖金池最大的）。

这个游戏对强化学习提出了更大的挑战，表现在长周期序列决策、局部可观测、决策因素多维性和关联性、高维度行动空间等。Dota2的规则也很复杂，这个游戏已经维护完善了近10年，游戏的逻辑代码就有数十万行代码。

方法概述

解决这个复杂环境的关键要素是将现有的强化学习系统提升到前所未有的能力，通过使用成千上万的GPU训练几个月。我们建造了一个分布式训练系统来解决这个问题，训练一个叫做OpenAI Five的Dota 2智能体。

前文所述，这个智能体打败了人类的世界冠军队伍，我们还将其在Dota2社区开放挑战，OpenAI Five在超过7000局游戏中获得超过99.4%的胜利。

我们面临的一个重要挑战是外部环境和智能体的代码在我们研发过程中不断变化，为了避免在每次变化后都从头重新训练，我们开发了一个叫做surgery的工具集来恢复训练性能，使性能损失最小化。超过10个月的训练过程中，我们差不多每2周用一次surgery。

这些工具允许我们对我们最强的智能体进行频繁的改进，而且避免了重新训练的传统方式。当AI系统解决越来越复杂和规模越来越大的问题时，对外部环境设定的深入研究和迭代开发将变得非常关键。

核心网络

OpenAI Five模型的简化架构如上图所示，将复杂多阵列的观察空间处理成一个简单的向量，将其传输至一个4096个单元的LSTM。LSTM状态通过投影变换获得策略输出（行动和值函数）。队伍中的五个英雄分别由这个网络的复制网络进行控制，几乎相同的输入和分别独立的隐藏状态。网络根据观测网络中控制不同的英雄而采取不同的行动。LSTM网络的参数占总参数的84%，模型细节参见论文附录H的图17和图18（论文PDF在文末下载）。

训练系统如上图所示，主要由4类机器组成，Rollouts在CPU集群上运行Dota2游戏。Rollouts与前向传输的GPU集群进行紧密循环通信，GPU集群根据当前观测采样行动策略。Rollouts发送他们的数据到优化GPU集群，进行梯度更新。优化器将参数更新发布到控制器和前向传输GPU集群，实现对参数的及时更新。机器数量在论文的4.2节进行了描述。OpenAI Five使用的机器数量在这个规模到3倍之间波动。

训练过程中会通过Surgery工具集进行持续的迁移。

启示

这次成功的尝试揭示了提高算力和持续训练对强化学习能力提升的重要性，可以认为在两个队伍参与的零和连续问题中具有泛化能力。

一句话，规模化很重要。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-12-22，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习