前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >教 AI 打牌打游戏,不止是为了战胜人类

教 AI 打牌打游戏,不止是为了战胜人类

作者头像
kbsc13
发布2019-08-16 16:06:07
8000
发布2019-08-16 16:06:07
举报
文章被收录于专栏:AI 算法笔记AI 算法笔记

By 超神经

场景描述:昨日,DeepMind 宣布其研发的 AI——AlphaStar 将会登录欧服,匿名在天梯上与人类玩家进行《星际争霸 2》比拼。今天,Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ,在六人局的德州扑克比赛中击败人类顶级玩家的消息又刷屏。AI 在游戏比赛中的表现越来越突出,但我们不断训练 AI 在游戏中去战胜人类,最终的目的与意义是什么?

关键词:AI 游戏 研究意义 应用场景

就在昨天,DeepMind 宣布,其研发的 AI AlphaStar 近期将会登录欧服,并匿名在《星际争霸2》中和人类玩家在天梯竞技。今天,Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ,在六人局的德州扑克比赛中击败人类顶级玩家。

为啥 AI 总对棋牌游戏这么感兴趣,而且背后的团队也在那么不遗余力的拿下游戏和棋牌比赛呢?

从最复杂策略游戏《星际争霸 2》说起

《星际争霸》(StarCraft)由暴雪娱乐在 1998 年推出,其续作《星际争霸 2》于 2010 年发行。它被认为是近年来最难、最硬核的一种即时战略游戏,在各种游戏纷纷被 AI 攻克的情况下,它却是 AI 比较难掌握的游戏类型。

游戏通过俯视视角对战场的军队下达指令,玩家收集资源

建造建筑、组建军队并升级,再和其他玩家对抗

为了获胜,玩家必须谨慎地平衡和处理多方面的因素,及时作出规划和应对策略。和只依赖于策略的棋类游戏不同,在这个游戏中,AI 要玩得出彩,需要面对多个方面的挑战,包括应对不完美信息,进行长期规划,学会及时策略等等。

但在去年 12 月,这个情况被彻底改变了。在人类 vs AlphaStar 的 11 场《星际争霸 2》比赛中,AI 碾压式地以 10:1 大获全胜。至此,AI 在星际争霸这个游戏上,又留下了浓重的一笔。

AlphaStar 的行为是由深度神经网络生成的,该神经网络接收游戏界面的输入数据(单位及其属性列表),并输出构成游戏内动作的一系列指令。

基于不完美的信息,游戏通常持续长达一个小时,需要成千上万次移动。星际争霸的每一帧都用作输入的一步,神经网络预测每帧之后剩余部分的预期行动顺序,然后采取最佳的行动。

Alphastar 与人类职业玩家数据对比:

观察和行动之间的总延迟,高下立现

DeepMind 解释说,AlphaStar 对战的成功,实际上是由于卓越的宏观和微观战略决策,而不是优越的点击率、更快的反应时间。

而这项技术还有助于机器学习研究中的许多其他挑战,包括长期序列建模和大输出空间,如翻译,语言建模和视觉表示等。

AI 在棋牌游戏中已经称霸

  • 1997 年,计算机程序「深蓝」击败当时世界第一棋手,开启了 AI 战胜人类游戏玩家的历史;
  • 2017 年 5 月,不断成长的 AlphaGo 以 3:0 战胜当时世界围棋水平最高的棋手柯洁。之后,仅仅时隔 5 个月,DeepMind 公布了一种新的算法变种,即 AlphaGo Zero,能够以 100 比 0 的比分狂虐 AlphaGo;
  • 2018 年底,Uber AI 研究院通过强化学习算法 Go-Explore,在《蒙特祖玛的复仇》中获分超过 200 万,平均得分超过 40 万,被称为 Atari 游戏史上最强通关算法;
  • OpenAI Five 先依靠 5 个神经网络组成的 OpenAI Five 击败 Dota 2 的业余玩家队伍。在2019 年 4 月, Dota2 国际邀请赛中以 2:0 吊打世界冠军 OG 战队。

看起来 Dota2 已经被 OpenAI 完全拿下

  • 然后就是在最近,德州扑克赌神 AI——Facebook 与 CMU 联合打造的 Pluribus,在六人局中,击败人类顶级德扑选手,平均下来每个小时就能获利近一千美元

而团队训练出这个德扑赌神 AI ,只用了不到一个星期。

Pluribus 还会在比赛过程中虚张声势,生生唬住人类玩家

人类已经培养出了如此之多的 AI,在多个复杂的电竞游戏中战胜人类顶级玩家,让人类瑟瑟发抖。

但是,AI 是为了娱乐才玩游戏的吗?

先战胜人类,再服务于人类

为了教算法下围棋、电子竞技、打扑克,这些 AI 公司花费了不少心血,态度可以说是非常严肃认真了。

OpenAI 他们甚至还专门开发了一个叫做 Gym 和 Universe 的开源平台,可以让每个人都用这个平台教计算机玩游戏,Gym 用来玩 Atari,Flappy bird,贪食蛇这种小游戏,Universe 则用来玩 GTA5,赛车这种大型 3D 游戏。

OpenAI Gym 公开发布的游戏数量达 1000 多个

他们耗费巨大精力财力,只是为了玩游戏来娱乐吗?或者,是让 AI 打败人类这件事,能够给他们极大的成就感?并不是,对于 AI 研究者来说,游戏只是方法,绝非目标。

游戏环境:是 AI 整体发展的加速器

游戏,是完美的 AI 测试平台。游戏有方便处理的数据,固定的规则,多种可假设的策略,游戏也就是模拟场景,它对于人工智能的研发来说是一个非常理想的场所。

星际这类游戏背后有着复杂的策略和数据

纽约大学游戏研究中心副教授 Julian Togelius 说,「我们还没有看到很多东西是通过游戏训练,然后再转移到现实世界的。但我们已经看到,为玩游戏而发明的方法,转移到了现实世界。」

游戏 AI :是人类玩家最好的老师和对手

一方面,AI 可以帮助发现一些更完美的策略,提高人类玩家竞技技能。柯洁就认为和 AlphaGo 的对战,让他打开了思路,提高了围棋水平;

另一方面, AI 的介入,会为很多游戏打造一个更智能的对手,经过调整的 AI,不仅能够成为人类玩家的教练,适配不同玩家的水平与之对战。

还能够避免如今游戏里的人类玩家动辄相互发飙,如果有一个佛系 AI 在你的对面,一定能维持一个更加文明的游戏环境。

游戏只是个开始:广阔天地,大有作为

DeepMind 的 CEO 戴密斯·哈萨比斯(Demis Hassabis)说:「DeepMind 的目标不仅仅是获得游戏胜利,还要从中获得乐趣和启发。」

据说,超级玛丽是 AI 研究者最喜欢的游戏

「但从个人角度来说,我喜欢玩游戏,我也曾开发过电脑游戏。可是从某种程度上说,它们又都是试验台,即尝试编写算法并对其进行测试的平台。最终,我们希望能将技术应用于解决现实世界的难题。

未来,AlphaGo 和 AlphaStar 将不仅仅只是 AI 玩家的名字、去操控游戏中的英雄,DeepMind 也不会局限于解决游戏的问题,他们将会成为人类社会的 AI 英雄。

—— 完 ——

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法猿的成长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档