专栏首页决策智能与机器学习看OpenAI如何利用强化学习破解现实决策问题的复杂性和连续性

看OpenAI如何利用强化学习破解现实决策问题的复杂性和连续性

导读:长周期序列决策、局部可观测、决策因素多维性和关联性、高维度行动空间等复杂性和连续性问题是现实世界中进行决策经常要面对的,强化学习在很多场景下已经被证明了有效性,OpenAI近期更是在Dota2中打败了人类的世界冠军OG队伍,将强化学习的能力提高到了新的水准,更长的行动序列、更高的决策复杂度、多智能体协同等。让我们来看看奥妙何在吧。论文下载见文末。

面向问题:两队零和博弈在现实复杂环境中的决策挑战

关键要素:规模化

核心方法:强化学习、LSTM

概览

2019年4月13日,OpenAI Five(OpenAI开发的DOTA2的AI名字)成为第一个在电子竞技中打败世界冠军的AI系统。Dota2游戏对AI系统提出了更高的挑战,如长周期行动序列、不完备信息、复杂连续的状态行动空间等,所有挑战将会成为更加强大的AI系统的核心。

OpenAI Five大幅提升了当前的强化学习技术,将其提升到可以从每2秒200万帧批次中学习。我们开发了分布式训练系统和工具以支撑我们持续10个月对OpenAI Five的训练。通过打败Dota 2的世界冠军队伍OG,OpenAI Five证明了自我对抗强化学习可以在复杂任务上超越人类表现。

背景

AI长期以来的目标就是解决现实世界的高阶挑战。游戏在近几十年成为了解决这个问题的重要依托,从双陆棋(1992)到国际象棋(1997),再到雅加达游戏(2013)。在2016年,AlphaGo在围棋中打败了世界冠军,使用的是强化学习和蒙特卡洛树搜索。最近几年,强化学习模型解决了各种机器人控制、文本摘要、视频游戏如星际争霸、我的世界等。

前期AI的里程碑如国际象棋、围棋、复杂视频游戏等,已经开始摸到了现实世界的复杂性和连续性本质。Dota2是一种多玩家实时策略游戏,由Valve公司在2013年发布,在2013年到2019年期间,平均有50万到100万在线玩家。这个游戏中有全职的专业玩家,2019年国际比赛的奖金池已经达到3500万美元(世界电子竞技中奖金池最大的)。

这个游戏对强化学习提出了更大的挑战,表现在长周期序列决策、局部可观测、决策因素多维性和关联性、高维度行动空间等。Dota2的规则也很复杂,这个游戏已经维护完善了近10年,游戏的逻辑代码就有数十万行代码。

方法概述

解决这个复杂环境的关键要素是将现有的强化学习系统提升到前所未有的能力,通过使用成千上万的GPU训练几个月。我们建造了一个分布式训练系统来解决这个问题,训练一个叫做OpenAI Five的Dota 2智能体。

前文所述,这个智能体打败了人类的世界冠军队伍,我们还将其在Dota2社区开放挑战,OpenAI Five在超过7000局游戏中获得超过99.4%的胜利。

我们面临的一个重要挑战是外部环境和智能体的代码在我们研发过程中不断变化,为了避免在每次变化后都从头重新训练,我们开发了一个叫做surgery的工具集来恢复训练性能,使性能损失最小化。超过10个月的训练过程中,我们差不多每2周用一次surgery。

这些工具允许我们对我们最强的智能体进行频繁的改进,而且避免了重新训练的传统方式。当AI系统解决越来越复杂和规模越来越大的问题时,对外部环境设定的深入研究和迭代开发将变得非常关键。

核心网络

OpenAI Five模型的简化架构如上图所示,将复杂多阵列的观察空间处理成一个简单的向量,将其传输至一个4096个单元的LSTM。LSTM状态通过投影变换获得策略输出(行动和值函数)。队伍中的五个英雄分别由这个网络的复制网络进行控制,几乎相同的输入和分别独立的隐藏状态。网络根据观测网络中控制不同的英雄而采取不同的行动。LSTM网络的参数占总参数的84%,模型细节参见论文附录H的图17和图18(论文PDF在文末下载)。

训练系统如上图所示,主要由4类机器组成,Rollouts在CPU集群上运行Dota2游戏。Rollouts与前向传输的GPU集群进行紧密循环通信,GPU集群根据当前观测采样行动策略。Rollouts发送他们的数据到优化GPU集群,进行梯度更新。优化器将参数更新发布到控制器和前向传输GPU集群,实现对参数的及时更新。机器数量在论文的4.2节进行了描述。OpenAI Five使用的机器数量在这个规模到3倍之间波动。

训练过程中会通过Surgery工具集进行持续的迁移。

启示

这次成功的尝试揭示了提高算力和持续训练对强化学习能力提升的重要性,可以认为在两个队伍参与的零和连续问题中具有泛化能力。

一句话,规模化很重要。

本文分享自微信公众号 - 决策智能与机器学习(AIfreak),作者:九三山人

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何测试AI系统?

    曾经从事过应用程序开发项目的人都知道,不仅是要将代码和内容在生产中,向客户,员工或利益相关者展示出来,而且需要先对其进行测试以确保其不会损坏或交付失败。质量保证...

    用户7623498
  • 算法集锦(13)|自然语言处理| Python代码的语义搜索引擎创建

    现代搜索引擎的力量非常强大,可以让你瞬间从互联网中获取想要的知识。但是,现有技术也存在着无法忽视的局限性,比如搜索非文字内容或者内容难以用“关键词”描述时,都难...

    用户7623498
  • 2019年数据科学的热门趋势

    今年有望成为人工智能技术爆发的一年。不信的话,可以看看有多少以AI为名义的创业公司;再看AI引起了多少科技巨头的关注或者那些顶级会议的核心议题。

    用户7623498
  • 动态 | 仅开放一天,已有 16 支队伍成功击败 OpenAI Five

    AI 科技评论按:虽然新版 OpenAI 连续两次击败 TI8 冠军 OG,但在今天 OpenAI 向公众开放仅一天后,便有 16 支队伍成功击败新版 Open...

    AI科技评论
  • AI 又赢了! OpenAI 玩Dota 2在5v5比赛中击败人类玩家

    原标题《Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)》

    CDA数据分析师
  • Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)

    我们团队构建的模型,OpenAI Five,已经击败业余 Dota2 团队了。虽然如今是在有限制的情况下,但我们计划到 8 月份在有限英雄池下击败 TI 赛中的...

    机器之心
  • 热点 | Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)

    2017 年,OpenAI 在 Dota2 TI 决赛现场以 1 对 1 solo 的方式击败了「Dota 2」世界顶级玩家。经过一年的发展,OpenAI 于昨...

    灯塔大数据
  • OpenAI:人工智能程序在Dota2的5V5比赛在中击败人类玩家

    国外人工智能团队OpenAI在一篇博客文章中透露,为Dota 2设计的最新版本AI击败了五支业余选手团队,其中包括一个由Valve员工组成的团队。上一代 Ope...

    AiTechYun
  • 前端智能漫谈 - 写给前端的AI白皮书

    | 导语 最近几年,学术界、工业界、投资界各方一起发力,人工智能发展得如火如荼,硬件、算法与数据共同发展,带来了各行各业的深度应用。而我们前端er更像一个事不...

    腾讯大讲堂
  • 击败DotA2顶级人类玩家,并不是AI的一次突破

    作者:Denny Britz,前谷歌大脑团队成员 问耕 编译整理 量子位 出品 | 公众号 QbitAI ? △ 工作人员手里举着一个U盘,装在里面的就是击败了...

    量子位

扫码关注云+社区

领取腾讯云代金券