文章/答案/技术大牛

发布

OpenAI Five 在TI前最后一次练兵，机器和人类的终极对决即将开打？

文章来源：企鹅号 - 博雅云课堂

原文：By Dave Gershgorn，Quartz

编译：他乡不远

8月5日，太平洋时间下午12:30，北京时间8月六日3：30，一场牵动极客目光的比赛将在旧金山举行：OpenAI Five Benchmark比赛。

这场被称为机器和人类的终极对决有哪些看点？对人类，它意味着什么？或者说，它对近年来喋喋不休地人工智能与人类未来的争论，究竟可以贡献哪些可能的范本？

关于OpenAI Five

去年，OpenAI Five在1v1版本中击败了世界顶级专业人士; 上个月，OpenAI Five在5v5的完整比赛中成功击败业余队伍。

那么，这次的比赛，OpenAI是否有希望在8月底达到国际顶级专业人士的水平？几个小时之后，答案即将揭晓。但是比赛的结果并非最重要的，无论Open AI是赢是输，理论上来讲，这都是一场没有悬念的比赛。人工智能，正以前所未有的速度，走进人类的舞台。这些正在进行深度学习的一行行代码，究竟是人类的朋友还是敌人，是将人类推向更高智慧，还是以代码控制人类的荒诞剧目？一切都尚不可知。

OpenAI Five和之前的版本比又有哪些进步？

让我们把目光再投向OpenAI Five Benchmark比赛。

这次，人工智能系统OpenAI Five将与Dota 2中的五个前职业选手进行对战，这五位人类包括Blitz、Cap、Fogged和Merlini 等，他们很多都是前职业选手。

Twitch频道将播放这一场比赛，由Purge和ODPixel进行解说。OpenAI Five Benchmark 游戏比赛是一场高水准的电竞比赛，既需要选手的快速反应，更重要的是，需要团队合作。

在这个游戏中，两支由五名玩家组成的团队被放置在一个方形竞技场的两端，并使用近战攻击和法术来摧毁对手的基地。

对于研究人员来说，在这样一个项目上以智能AI战胜专业人士，就像一个机器人在学习如何在篮球上打败迈克尔乔丹。

据Open AI宣称，他们已经取消了对OpenAI Five在6月份版本中游戏玩法的最重要限制，如眼位，Roshan和固定英雄等。今天，OpenAI将会通过和前0.05%的Dota玩家对决来衡量AI的进步。

OpenAI 团队使用的训练系统叫做Rapid，它是一个非常通用的深度学习系统，可以应用于很多场景，比如体育馆。

通过这一深度学习系统，OpenAI Five 得以学习许多复杂的技能。相比六月份的版本，OpenAI已经集成了许多新的功能和随机化，比如眼位和Roshan。他们还将OpenAI竞赛的英雄池增加到了18位英雄。

我们将看到这些新游戏机制在8月5日的运作情况，如果足够成功的话，在八月底的国际邀请赛上，OpenAI Five必将更近一步。

同时，OpenAI Five的反应时间将会从80ms增加到200ms。这个反应时间更接近人类的实际水平，OpenAI Five的力量来自团队合作和协调，而不是反应。记住这一点很重要，因为团队合作和协调，是机器模仿人类、进行深度学习的一个突破性的动作。

和AlphaGo相比，OpenAI为什么更重要呢？

可能大家对AlphaGo与李世石的对决记忆犹新。如果OpenAI Five能打出漂亮的一仗，它的影响力和实际应用将会超过DeepMind的AlphaGo给人带来的惊喜。我们还有理由相信，OpenAI Five有望在2019年彻底超过人类玩家。

真实世界的AI应用要比在围棋领域中的问题更为复杂。相比于围棋，dota2需要在在信息不完整，策略空间和观测空间维度巨大做出更佳决策。如何在短期收益和长期收益中取得平衡是目前需要解决的难点。OpenAI团队的“协作型”AI和强化学习（Reinforcement Learning）将有望学会完成真实世界中复杂而混乱的重要任务。

目前，通过游戏领域的“自我对局”系统，AI已经可以实现掌握一系列动作技能，比如进攻、躲避、假动作、踢、抓等等。我们有理由相信，配合逐渐成熟的机器人工艺，过去只出现在科幻小说中的智能机器人，可能真的离我们不远了。

OpenAI Five的训练模式是强化学习，把 AI 放到虚拟环境中，并通过自我尝试学会实现目标，获得程序员设定的奖励机制。这样一遍一遍地反复训练，强化学习。

通过自我对抗学习，OpenAI Five 每天相当于玩 180 年的游戏。训练上，它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化（Proximal Policy Optimization）方法进行训练。

和现在国内以大量数据库为基础的智能应用不同，OpenAI的模型可以在没有人类数据干预的情况下学到可识别的策略，这表明强化学习即使没有根本性的进步，也能够产生大规模但也可接受的长期规划。

我们可以这么算，如果一个人需要花10000小时来接近职业玩家的水平，那OpenAI的速度要快得多，因为它每天积累的游戏经验是一个人一生积累经验的100倍。

为什么游戏更能帮助我们理解人工智能？

我们可以通过AI在游戏上的表现，了解人工智能研究的进展：

我们可以理解IBM的DeepBlue在国际象棋中击败世界冠军意味着什么。同样，DeepMind的AlphaGo通过击败李世石再次证明了，人类通过几十年积累的实践和技能可以被机械的计算超越。

除了这些公开的比赛之外，事实上，人工智能研究人员已经工作了数十年，他们在玩雅达利游戏，在玩跳棋，甚至任天堂明星大乱斗，当然，在这些游戏中，人工智能都是“超人”。

所有这些起源于实验室的研究，都是要追问一个问题：当处于复杂的情况时，人工智能可以击败人类吗？OpenAI曾经宣布，它的研究可以在更广泛的领域得到应用，例如，为播放Dota 2的相同算法也可以用来移动机械手。

作为教授机器人玩游戏的最流行的方法之一，OpenAI使用的技术称为强化学习。

当你为机器人提供一个目标时，比如收集硬币，并在完成目标时奖励机器人。起初，机器人的动作是完全随机的，直到它意外地弄清楚如何完成任务。机器人用于完成任务的移动被加权为更好，机器人就更有可能在下次尝试时遵循这些操作。经过数百，数千或数百万次尝试，策略出现了。

例如，OpenAI的Dota 2游戏机器人在两周内进行了数百万场比赛。在每场比赛中，机器人的奖励从获得积分转移到增加整个团队的分数。研究团队称之为“团队精神”。人类是有极限的，但是，AI极有可能突破极限。

不仅仅是一场比赛

OpenAI的视频游戏追求的不仅仅是在游戏中击败专业人士，而是学习如何制定数以千计的小决策来实现更大的目标。

在另一个使用与Dota 2机器人相同的学习系统和算法的OpenAI项目中，它的研究人员设计了一种算法来控制机械手，它可以握住一个块并用它的手指将它操纵成特定的方向。

这两个项目大约在同一时间启动，但是，当Dota 2团队去年在比赛中击败人类专业人员时，OpenAI技术人员Jonas Schneider表明了机器人团队已经意识到强化学习系统的潜力。

“我们基本上使用与Dota实验完全相同的代码达到了相同的性能水平，”Schneider说， “在短短几个星期内，我们与之前几个月试图建立的产品达到了平衡。我想我们都非常惊讶。”

这些实验使用由OpenAI构建的程序Rapid来运行，该程序协调数千个同时运行数百个强化学习算法的处理器。每个算法都为机器人提供动力，机器人通过游戏或模拟移动手，然后在试验结束时将其学到的内容与其他机器人同步。

使用比普通笔记本电脑高出数千倍的计算能力，机械手已经能够实现令人印象深刻的灵活性，而无需程序员们编码每个手指应该如何移动。

发表于: 2018-08-052018-08-05 22:01:34
原文链接：https://kuaibao.qq.com/s/20180805A1FECP00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

OpenAI Five 在TI前最后一次练兵，机器和人类的终极对决即将开打？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐