AI再称霸 | MIT 强化学习程序任天堂格斗游戏跻身顶级玩家(附论文)

【新智元导读】 MIT 计算机科学研究团队最近使用强化学习开发的AI程序登陆任天堂推出的对战型格斗游戏《任天堂明星大乱斗》PK 人类玩家,现已跻身顶级玩家之列。国际象棋、围棋和扑克之后,电子游戏可能会成为下一个AI称霸的地方。

经典的《任天堂明星大乱斗》(SSBM)游戏很快将被 AI 征服。MIT 计算机科学和人工智能实验室开发了一个该游戏的 AI 玩家,它比任何你在游戏中遇到的对手都要强大,现在上了该游戏的全球排名榜。

如果你不熟悉大乱斗游戏,稍微介绍一下。这是一个任天堂推出的对战型格斗游戏,游戏角色来自任天堂的各种游戏。可爱的外观掩盖了游戏的战略深度,正如论文摘要中写道:“SSBM 的环境具有复杂的动态性和部分可观察性,使其对人类和机器都相当有挑战性。而且多人角色对战更是挑战。”

由 Vlad Firoiu 带领的这个团队训练了一个神经网络模型,通过喂给它所有的游戏元素(玩家、壁架,等等)的坐标,以及游戏激励,进而使模型在游戏中获得胜利。这个模型不会像其他一些系统那样通过观看屏幕来学习,而更像是一个游戏里的计算机玩家,从头开始学习。

正如其他计算机模型也经常出现的情况,它的打斗风格混合了传统特征和新奇特征。Firoiu 写道:“它使用了人类的技巧和一些奇怪的新技巧,两者都受益于更快的人类反射活动。这有时候会非常保守,因为直到它看到对手开始攻击前,它不愿意先攻击。其他时候,它很危险,会演变成快速杀死对手的风格。”

视频内容

上面的视频是该系统与全球排名前100的几名玩家的对战,可以看到,总体来说它赢的情况比输的情况多。但它的射弹不够好(在玩鹰队长时),而且它还有一个秘密弱点:

“如果对手缩在角落里很长一段时间,它会变得怪异,最终自杀,”Firiou写道。他补充说:“这应该对把在模拟环境中训练的智能体放入现实世界是个警告。”

这不是一项能得诺贝尔奖的非常伟大的研究,但与围棋、Doom 等游戏一样,这类研究是了解现有学习模型和技术在新环境中会如何表现的好方法。

这个程序跟AlphaGo有很多相像之处,也可以通过自我对抗进行学习。

论文摘要

最近,AI 在游戏中的能力获得了爆发式的进步。许多传统的强化学习任务,从Atari 游戏到汽车控制再到棋盘游戏,这些问题都可以用一些非常通用的算法得到解决,这些算法都基于深度学习,也就是从经验中进行学习,对某一领域并没有储备过多的专业知识。在本项研究中,我们将会研究这些方法在游戏Super Smash Bros. Melee (SSBM)(任天堂明星大乱斗)中的表现。SSBM 游戏的环境中有着非常复杂的动态以及部分的观察(而非全局的),使得游戏难度大增,不管对人或者机器来说,要玩好这一游戏都是具有很大的挑战性的。此外,多玩家的模式也增加了游戏的难度,因为最近强化学习取得的进步大多数都集中在单一智能体的环境中。虽然如此,我们将通过本研究展示,要训练在这种环境下胜过人类玩家的智能体是可能的,这在多人玩家的电子游戏中是一个最新的成果。

方法

使用了两个主流的无模式(model-free )强化学习算法:Q-learning 和 Policy Gradient Methods。在标准上,论文遵守了这两种技术的前期简要综合研究成果。然后,研究使用 “s” 来表示状态,然后用 “a” 表示行动,使用 “r” 来表示回报,所有者三个表示可能会被一个时间步( time step)来进行优化。另外,大写字母代表随机变量。

Q-learning:

Policy Gradient Methods:

对AI研究的意义

通过迁移学习可以使 AI 程序在不同角色中切换。也就是说按照 Fox McCloud(任斗角色之一)训练的AI也可以玩 Captain Falcon或者 Peach等其他角色。

迁移学习在此情景下能够成功应用的原因或许是角色之间存在共通性。角色的移动、当对手靠近时如何发动攻击,这些策略在不同的角色间是相通的。

论文地址:https://arxiv.org/pdf/1702.06230.pdf

编译来源:https://techcrunch.com/2017/02/24/super-smash-borg-melee-ai-takes-on-top-players-of-the-classic-nintendo-fighting-game/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-02-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

【AI就业面面观】如何选择适合自己的舞台?

应届生的第一份工作是形成工作习惯、思维方式的主要阶段。要知道,良好的工作方式和做事习惯、思考和解决问题的方式,对于一个人后续的职业发展至关重要,在起跑线上一定要...

1065
来自专栏媒矿工厂

利用人工智能提升足球直播效果

人工智能技术代表着未来无限的可能性,已经在很多领域带来巨大的冲击。在足球直播这一领域,版权方需要提供更多更优质的内容以应对日益增长的多元化需求,因此急需提高运营...

5042
来自专栏AI科技评论

重磅丨谷歌大脑的 2016 实现了哪八个小目标?Jeff Dean 亲自撰文回顾

AI 科技评论按:提起 Google Brain(谷歌大脑)团队,它在 2016 年因为推出了基于神经网络的机器翻译功能火了一把。AI 科技评论也在近日参加了硅...

3065
来自专栏新智元

LeCun :一味模仿人脑将阻碍AI的发展

【新智元导读】Facebook的AI研究负责人指出,一味模仿人脑开发AI将会阻碍AI的发展。很多业界专家也有类似的论调,他们认为AI研究的重点不应是模仿大脑的工...

2726
来自专栏AI科技评论

深度 | 论文被拒千百遍,团队不受待见,Yann LeCun为何仍待深度学习如初恋?

AI科技评论按:Yann LeCun是人工智能神经网络方面的大牛,现在是Facebook人工智能研发团队的领军人物。可是他的研究之路并不是一帆风顺,在神经网络变...

3507
来自专栏机器之心

业界 | NovuMind异构智能核心技术引领智联网

3167
来自专栏AI科技大本营的专栏

观点 | 计算机视觉到底是个什么鬼?

翻译 | AI科技大本营(rgznai100) 参与 | Joe 房间的那一边,一个人冲你扔了一个球,你接住了。看上去特别简单,对吧? 事实上,尝试去全面理解的...

3484
来自专栏数据科学与人工智能

【经验】2018年努力成为一名数据科学家

2018年努力成为一名数据科学家 1 一个数据科学家是比软件工作者更擅长统计学,比统计工作者更擅长软件工程。 2 一个数据科学家是研究和解决有价值的数据问题,...

3748
来自专栏用户3246163的专栏

[脑书笔记]《刻意练习》(上):人人都能成为天才!

这个故事在这本书里给我的印象非常深刻,因为我发现自己以前很多学习都和这个类似: 我不知道,我就是一直在背单词,但是英语还是不好! 我不知道,我就是一直在看书啊,...

1931
来自专栏人工智能头条

MIT在读博士心得:做好AI科研,你需要注意什么?

1794

扫码关注云+社区

领取腾讯云代金券