Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >世界上最难的“沙雕”游戏被AI攻破了

世界上最难的“沙雕”游戏被AI攻破了

作者头像
量子位
发布于 2023-03-10 05:46:05
发布于 2023-03-10 05:46:05
2350
举报
文章被收录于专栏:量子位量子位
梦晨 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI

13年以前,有这样一款“变态”级难度的游戏曾风靡一时。

它的名字简单粗暴——QWOP。意思是让玩家用这四个键位控制游戏人物的左右大腿和小腿,以最快的速度跑完100米。

实际上,大部分玩家刚上手的时候,可能连起点线都迈不过去就Game Over了。

如果你能跑出几米远,绝对算是一个高手,甚至能在朋友面前炫耀一番。

QWOP的难点在于,一旦角色失去平衡就很难再挽回,需要在100米的距离内一直保持重心不过于向前后倾斜。

当你经过苦练第一次跑起来时,又会被50米处作者故意设置的栏杆摆一道:说好的100米短跑怎么变跨栏了?

某小编当年的游戏截图

在那个4399小游戏盛行的年代,这款也被戏称为“是男人就跑100米”。因为难度过于“变态”,QWOP开发者曾收到过很多辱骂邮件。

虽然绝大部分人难以跑到终点,但仍有一批骨灰级玩家乐此不疲,他们不仅能轻松跑完,至今还为竞争世界排名而不断挑战。

2个月前,一位日本玩家创造了新的世界纪录:48.34秒

看到这款“沙雕游戏”,你是不是会想到强化学习来训练双足机器人的画面?

一位来自波士顿咨询的数据分析Wesley Liao也是这么想的。

不过别以为“变态”难度的游戏到了AI面前就变成了毛毛雨。

Liao综合了之前多种强化学习算法,最后甚至请来了“世界名师”教学,费了好大一番功夫,才终于让AI在上周打破人类玩家的记录。

可见这款游戏的难度一点都不比围棋低啊。(手动狗头)

小试牛刀

一开始,Liao使用OpenAI Gym强化学习环境来训练AI,先设定好游戏的状态、操作和奖惩机制。

状态包括每个身体部位和关节的位置、速度和角度。操作方式限定为11种:4个QWOP按键、6种两两按键组合以及不按任何键。

用来训练AI的算法是ACER(具有经验回放能力的Actor-Critic)。这种算法的优点是,不仅可以从其最近获得的经验中学习,也可以学习存储数据中更早的经验。

由于ACER非常复杂,Liao使用了别人的实现代码“Stable Baselines”。

Liao首先尝试了让AI自己学习。经过多次实验后,他发现AI只学会了“蹭膝盖”这种方式跑过终点,速度很慢。

这和许多人类普通玩家以及其他强化学习算法是一样的,离高手的水平还差很远,更不用谈打破纪录了。

仔细分析可以发现,AI根本没有学习到跨步机制,只是学习到了最安全、最慢的方法来到达终点。

看来靠AI完全自学是不行了。

学会奔跑

类似于DeepMind用顶级棋手教AlphaGo下棋,Liao想到是不是也可以让人类玩家来教一下AI。

但是Liao本人的技术和顶级玩家差距太大,自己最多也只能跑到28米。

这都不重要,重要的是起码Liao跨出更大步伐的技巧,只能寄希望于AI能从“渣技术”里学到一点奔跑的技巧吧。

但是结果很不幸,AI很好地诠释了“邯郸学步”:不仅没掌握跑步技巧,反而在起点就跌倒了。

然后Liao让AI自己继续训练。所谓师父领进门,修行在个人,AI能否将人类技术和自学能力结合起来?

结果令人兴奋,经过90个小时的训练,AI终于学会了像人一样奔跑!

最终成绩是1分25秒,已经能跑进全球排行榜的前15名,离超过人类不远了。

接下来要做的就是再向AI教授更多技巧,奈何本人技术太渣。

所以要想进一步提高AI的水平,必须找顶级高手来帮忙。

顶级高手助阵

Liao观察速通排行榜上的录像,发现顶级玩家的技巧是把左腿抬高可以跑的更快。

排名第一玩家gunmaneko的踢腿技巧

他开始全球排名前二的玩家gunmanekoKurodo请教踢腿技巧的操作。

两位玩家热情地回答了他的问题。其中Kurodo指出这个技巧的关键在于减少游戏角色在纵向的移动,并提出把保持身体高度加入AI的奖励函数。

Liao向Kurodo分享了他的代码,Kurodo慷慨地使用代码记录了50次自己游戏时的按键记录发给Liao。

Liao尝试使用这些数据对AI进行预训练,但效果并不好。AI还没来得及学会踢腿技巧,倒先把基本的跑步方法忘记了。

Liao不得不改变方法,他把Kurodo的数据注入到AI的回放缓存*(Replay Buffer)*中。这相当于修改AI的记忆,使AI有一半的记忆是自己的,另一半来自Kurodo。

并且是AI每自己玩一次,就注入一次Kurodo的数据,保证AI随机从记忆中选取一段来学习时选到两种记忆的概率相同,避免在学习新技巧的过程中把基本操作忘掉。

AI使用Kurodo的数据训练了15个小时,终于学会了踢腿,但因为两种记忆无法协调在一起,跑时间长了动作会不稳定。

Liao此时把Kurodo的记忆移除,又让AI自己训练了25小时,总训练时间达到了65小时。

最终AI的成绩达到1分08秒,终于进入前十。

打破世界纪录

Liao把教AI玩这个游戏的过程做成视频发在网上。一个月前,外媒Gismodo问他:为什么AI还没有打破世界纪录?

于是Liao重新训练了一个只为优化速度而存在的新AI。

新AI改用Prioritized DDQN算法,因为这种算法会给学习效率更高的状态增加权重而不是均匀采样,能使新AI迅速学会旧AI已经掌握了的技巧。

并且,新AI的奖励函数去掉了身体高度,膝盖弯曲角度等参数,改成只和前进速度相关。

新AI先用已有数据进行只有几分钟的预训练,随后是40小时的自训练。最终,新AI每秒所做的动作数在训练环境中由9提高到18,并在测试环境中达到25。

新AI对踢腿技巧的掌握非常稳定,即使被障碍物影响也能迅速恢复。

快速高效的动作使AI的成绩提高到47.34秒,比人类最高纪录48.34秒刚好快1秒。

这才终于算是,在人工智能超越人类的游戏列表中又增加了一项。

One More Thing

你以为这就完了?

跑完100米不算完,这款游戏还有一种世界级难度——“是男人就跑完马拉松”

为Liao提供帮助的玩家Kurodo最近刚刚提交了世界纪录,全球也只有两人完成了这项壮举。

很难想象他们在电脑前连续按几个小时QWOP的画面。

另外,QWOP的开发者Bennett Foddy一直在坚持开发这类“变态”难度的独立小游戏。

有一款Getting Over It with Bennett Foddy名气颇高,中文名“掘地求升”。玩法就是一个装在坛子里的人不停用锤子让自己升高。

Foddy曾经在普林斯顿大学和牛津大学担任博士后研究员,现在是一名独立游戏设计师。QWOP就是他在普林斯顿大学时期开发的。

我只能说,学霸开发的游戏,学渣真的玩不起。

QWOP在线游戏地址: http://www.foddy.net/Athletics.html

参考链接: [1] https://github.com/Wesleyliao/QWOP-RL [2] https://www.speedrun.com/qwop [3] https://gizmodo.com/an-ai-was-taught-to-play-the-worlds-hardest-video-game-1846388137 [4] https://towardsdatascience.com/achieving-human-level-performance-in-qwop-using-reinforcement-learning-and-imitation-learning-81b0a9bbac96 [5] https://www.youtube.com/watch?v=82sTpO_EpEc [6] https://wesleyliao.com/

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~

加入AI社群,拓展你的AI行业人脉

量子位「AI社群」招募中!欢迎AI从业者、关注AI行业的小伙伴们扫码加入,与50000+名好友共同关注人工智能行业发展&技术进展

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
不是男人也要上100层:Unity专为AI开发了游戏,还启动了10万美元挑战赛
最近,Unity和谷歌云合作开发了一个新的游戏,叫障碍之塔 (Obstacle Tower) 。
量子位
2019/04/24
4150
不是男人也要上100层:Unity专为AI开发了游戏,还启动了10万美元挑战赛
AI看了70000小时《我的世界》视频学会人类高级技巧,网友:它好痛苦
以“钻石镐”(diamond pickaxe)为例,这个东西高级人类玩家要快速点击20分钟、约2.4万个动作才能制作完成。
量子位
2022/12/09
2270
AI看了70000小时《我的世界》视频学会人类高级技巧,网友:它好痛苦
新的一年,DeepMind准备让AI学会「放烟花」
近日,DeepMind 与 Google Brain 团队合作发布了 Hanabi 学习环境(HLE)的代码和论文,这是一个基于流行纸牌游戏的多智能体学习和即时通信研究平台。HLE 为 AI 智能体提供了一个游戏界面,并附带了一个基于 Dopamine 框架的学习智能体。
机器之心
2019/04/29
5140
新的一年,DeepMind准备让AI学会「放烟花」
惊呆了!双足机器人Cassie破百米吉尼斯世界纪录,用时24.73秒
---- 新智元报道   编辑:好困 桃子 【新智元导读】在完成创纪录的5公里户外马拉松后,双足机器人Cassie又以24.73秒完成了百米冲刺,创下了吉尼斯世界纪录。 刚刚,双足机器人Cassie创造了100米吉尼斯世界纪录! 用时24.73秒。 和人类运动员一样,Cassie也有自己特有的起跑姿势——让两个大汉用杆子吊着。 当然,在起跑之前,还需要小热一下身。 只见Cassie跺着小碎步,已经铆足了冲劲儿。 指令一下,直接冲了出去,朝着终点线一跃而过。 这步伐,妥妥的机器鸵鸟上线! 就是
新智元
2022/09/29
3350
惊呆了!双足机器人Cassie破百米吉尼斯世界纪录,用时24.73秒
怎样从零开始训练一个AI车手?
允中 发自 凹非寺 量子位 | 公众号 QbitAI △这篇文章我们做了一期b站视频,欢迎三连~ 如何快速理解强化学习的概念? 驯只猫就行。 比如下面这位爷,巨皮。 整天就是跑酷、尿炕、抓沙发,搞到人头皮发麻、心态爆炸。 直到你忍不了了,决定对它进行残酷的猫德教育。方案是: 以后在家,每当它表现出一次守猫德的行为,就奖励一根猫条; 而每当它皮一次,你就立刻扑过去,咬它的头…… 这样反复拉扯两个月之后,你的猫再也不敢皮了—— 这个过程里发生的事情,就是“强化学习”: 一个智能体(你的猫)在与环境(有
量子位
2022/09/22
2570
怎样从零开始训练一个AI车手?
AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
《荣耀之海》是西山居自主研发的新一代多人在线战术竞技游戏。游戏主打时下最火热的「吃鸡」玩法,百名玩家通过海上与陆上的大逃杀决出胜者。
机器之心
2019/12/24
1K0
“恶意版”俄罗斯方块游戏火了,永远给你不想要的方块,世界纪录才消掉31行
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 玩俄罗斯方块(Tetris),你有没有过这样的经历?总是怕什么来什么,想要什么永远等不来。 留下一个缝隙,明明只要来个长条,就能消除得一干二净,但它就是不来,还给你疯狂掉“S”。 然后,你就被那个“永远等不来”的长条给憋死了。 而有个程序员,他就是要“恶心”你:既然都有惨痛的经历,不妨把它做到极致,AI算出最让你难受的下一块,成功让你早死,最终摆脱游戏成瘾。(狗头) 这个故意刁难你的游戏,叫做“可恶的俄罗斯方块”(Hatetris,或者叫恶罗斯方
量子位
2023/03/10
3160
“恶意版”俄罗斯方块游戏火了,永远给你不想要的方块,世界纪录才消掉31行
大猩猩也会玩《我的世界》了,看一遍视频就能get新技能
在教会 GPT-4 玩《我的世界》(Minecraft)之后,人类也教会了大猩猩玩这款游戏。
机器之心
2023/09/08
1790
大猩猩也会玩《我的世界》了,看一遍视频就能get新技能
24.73秒!双足机器人Cassie挑战百米跑,创下世界纪录
选自spectrum.ieee 作者:EVAN ACKERMAN 机器之心编译 编辑:杜伟 人类百米赛跑世界纪录是博尔特在 2009 年柏林田径世锦赛上跑出的 9 秒 58。双足机器人的百米赛跑冠军也诞生了。 在双足机器人领域,机器人公司 Agility Robotics 的 Cassie 可称得上代表。Agility Robotics 是从俄勒冈州立大学(OSU)拆分出来的机器人公司,成立于 2015 年,曾经获得过美国国防部高级研究计划局的资助。Cassie 是该公司的第一款产品,在 2017 年至 2
机器之心
2022/10/08
4990
24.73秒!双足机器人Cassie挑战百米跑,创下世界纪录
1-10落败,5分钟崩盘!星际2职业高手史上首次被AI击溃,AlphaStar一战成名
DeepMind开发的全新AI程序AlphaStar,在今天凌晨的《星际争霸2》人机大战直播节目中,轻松战胜2018 WCS Circuit排名13、神族最强10人之一的MaNa。
量子位
2019/04/24
4920
1-10落败,5分钟崩盘!星际2职业高手史上首次被AI击溃,AlphaStar一战成名
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
2017 年,AI在各种游戏中横扫人类: 在围棋比赛中,AlphaGo Master战胜世界排名最高的柯洁,随后又衍生出AlphaGoZero和更高水平的AlphaZero;在扑克比赛中Libratus已经可以在打牌时使诈,充分利用人类漏洞;马斯克的OpenAI在短短时间内在Dota 2中击败世界顶级选手。未来实现自我学习的AI将在更多的游戏中超越人类。 2017年,AI在游戏中大获全胜。在过去的12个月里,从古老的围棋到德州扑克,AI越过了一系列新的门槛,最终在各种不同的游戏中击败人类玩家。 围棋 在
企鹅号小编
2018/01/15
8130
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
别眨眼!AI通过自学秒解魔方,比人类纪录快两倍
能够将魔方快速复原一直是魔方爱好者乐此不疲的事,目前人类的纪录是3.47秒,由来自中国的杜宇生创造。
新智元
2019/07/23
3930
别眨眼!AI通过自学秒解魔方,比人类纪录快两倍
腾讯AI击败王者荣耀职业队,全靠自学、策略清奇,一天训练量为人类440年
一场激烈的对战正在进行,左侧是五位人类职业电竞高手组成的赛区联队,另一方是……嗯?他们的对手没有出场?五个座椅空空荡荡?
用户1737318
2019/08/16
6060
腾讯AI击败王者荣耀职业队,全靠自学、策略清奇,一天训练量为人类440年
AI超人赛车手狂虐人类登Nature封面!1000台PS4训练,「苏菲」极限超车独霸赛道
索尼公司亲自下场开发的AI「GT Sophy」,让电子赛车游戏加入了上述名单:不管是日本的还是其他国家的头挑电竞选手,在GT赛车中都比不过索尼拿1000台PS4主机训练出的AI。
新智元
2022/02/24
4020
AI超人赛车手狂虐人类登Nature封面!1000台PS4训练,「苏菲」极限超车独霸赛道
贺中国男子接力获银牌,看数据如何主力体育!
喜讯!在昨日的北京田径世界锦标赛上苏炳添、张培萌、谢震业和莫有雪组成的中国队在男子4×100米接力决赛中,以38秒01的成绩获得银牌,创造了中国田径史上该项目的最好成绩。 “数据分析”能否助力体育赛事?请看我们今天推荐的文章。另,在大数据文摘后台,回复“体育”可看系列文摘。 大数据文摘翻译作品,欢迎个人转发朋友圈;其他机构、自媒体转载,务必后台留言,申请授权。 作者|Emerging Technology From thearXiv 翻译|王珏 校对|魏子敏 在一
大数据文摘
2018/05/21
6090
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1。现在全新的赌神Pluribus,终于取得突破,称霸多人局:
量子位
2019/07/17
6690
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
终极人机大战要来了?AI打星际2即将直播,DeepMind暴雪发出神秘预告
刚刚,DeepMind和暴雪联合宣布,北京时间周五凌晨2点,公开展示AI打《星际争霸II》(下称星际2)的新进展!
量子位
2019/04/24
4380
终极人机大战要来了?AI打星际2即将直播,DeepMind暴雪发出神秘预告
不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源
围棋被攻克之后,多人在线战术竞技游戏(MOBA)已经成为测试检验前沿人工智能的动作决策和预测能力的重要平台。基于腾讯天美工作室开发的热门 MOBA 类手游《王者荣耀》,腾讯 AI Lab 正努力探索强化学习技术在复杂环境中的应用潜力。本文即是其中的一项成果,研究用深度强化学习来为智能体预测游戏动作的方法,该论文已被 AAAI-2020 接收。
机器之心
2019/12/25
1.4K0
不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源
教 AI 打牌打游戏,不止是为了战胜人类
场景描述:昨日,DeepMind 宣布其研发的 AI——AlphaStar 将会登录欧服,匿名在天梯上与人类玩家进行《星际争霸 2》比拼。今天,Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ,在六人局的德州扑克比赛中击败人类顶级玩家的消息又刷屏。AI 在游戏比赛中的表现越来越突出,但我们不断训练 AI 在游戏中去战胜人类,最终的目的与意义是什么?
kbsc13
2019/08/16
8830
AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型
最近,Verses团队在AI领域投下了一枚重磅炸弹,他们自研的Genius智能体,创造了一个几乎不可能的奇迹——
新智元
2025/02/15
1360
AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型
推荐阅读
不是男人也要上100层:Unity专为AI开发了游戏,还启动了10万美元挑战赛
4150
AI看了70000小时《我的世界》视频学会人类高级技巧,网友:它好痛苦
2270
新的一年,DeepMind准备让AI学会「放烟花」
5140
惊呆了!双足机器人Cassie破百米吉尼斯世界纪录,用时24.73秒
3350
怎样从零开始训练一个AI车手?
2570
AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α
1K0
“恶意版”俄罗斯方块游戏火了,永远给你不想要的方块,世界纪录才消掉31行
3160
大猩猩也会玩《我的世界》了,看一遍视频就能get新技能
1790
24.73秒!双足机器人Cassie挑战百米跑,创下世界纪录
4990
1-10落败,5分钟崩盘!星际2职业高手史上首次被AI击溃,AlphaStar一战成名
4920
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
8130
别眨眼!AI通过自学秒解魔方,比人类纪录快两倍
3930
腾讯AI击败王者荣耀职业队,全靠自学、策略清奇,一天训练量为人类440年
6060
AI超人赛车手狂虐人类登Nature封面!1000台PS4训练,「苏菲」极限超车独霸赛道
4020
贺中国男子接力获银牌,看数据如何主力体育!
6090
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
6690
终极人机大战要来了?AI打星际2即将直播,DeepMind暴雪发出神秘预告
4380
不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源
1.4K0
教 AI 打牌打游戏,不止是为了战胜人类
8830
AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型
1360
相关推荐
不是男人也要上100层:Unity专为AI开发了游戏,还启动了10万美元挑战赛
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档