专栏首页Jack-Cui用AI玩55款经典游戏是什么体验?

用AI玩55款经典游戏是什么体验?

本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录,有技术干货文章,整理的学习资料,一线大厂面试经验分享等,欢迎 Star 和 完善。

大家好,我是 Jack。

用 AI 算法玩游戏,打破人类玩家的记录,是一种什么体验?

其中不乏我们熟悉的打砖块、蒙特祖玛的复仇、小蜜蜂等经典游戏。

可能有些朋友不知道 Atari,这里简单介绍一下。

1976 年,Atari 公司在美国推出了 Atari 2600 游戏机,这是史上第一部真正意义上的家用游戏主机系统。

80 后、90 后非常熟悉的 FC 红白机(超级马里奥、魂斗罗、松鼠大作战、坦克等等)则是十几年之后的事情了。

正是这样的一台主机创立了现在上千亿美元的家用游戏机产业。

今天要说的主角 DreamerV2 就是在这样一系列具有纪念意义的游戏中的 agent (智能体),Google 的最新力作。

在没有人为的干预下,DreamerV2 agent 可以学习自己打游戏,并且比肩人类,甚至超越。

这样一个看似高大上的算法,咱们现在都能玩

DreamerV2 刚刚开源,并且只需要一个 GPU 就能跑

本文,就先带大家简单学习一下 DreamerV2 的原理,以及如何让这个算法打游戏

强化学习

强化学习是机器学习的一个领域。

这就像训练宠物一样。当宠物做出了指定动作之后,我们给它一些食物作为奖励,使它更加坚信只要做出那个动作就会得到奖励。

这种训练叫 Reinforcement Learning(强化学习,简称 RL )。

DreamerV2 就是一种 RL 算法,举个简单的例子,说明下工作原理。

上图的网络,最左边是输入,右边是输出。游戏屏幕的图像是输入数据,经过卷积层和全链接层,最后映射到游戏手柄所有可能的动作。

强调如何基于环境而行动,以取得最大化的预期利益。

其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

在强化学习的世界里,我们的算法被称为 Agent,它与环境发生交互。

Agent 从环境中获取状态(state),并决定自己要做出的动作(action)。

环境会根据其自身的逻辑给 Agent 予以奖励(reward)。这个奖励有正向和反向之分。

比如,动物生活在大自然中,吃到食物即是一个正向的奖励,而挨饿甚至失去生命就是反向的奖励。

动物们靠着自己的本能趋利避害,增大自己得到正向奖励的机会。

如果反过来说,就是避免得到反向的奖励,而挨饿什么的最终会导致死亡。

所以动物生存的唯一目的其实就是避免死亡。

再举个感同身受的例子。

在电子游戏世界(特指Atari 2600这一类的简单游戏。不包括推理解密类的游戏)中:

  • 环境指的是游戏本身,包括其内部的各种逻辑;
  • Agent指的是操作游戏的玩家,当然也可以是指操作游戏的AI算法;
  • 状态就是指游戏在屏幕上展现的画面。游戏通过屏幕画面把状态信息传达给Agent。如果是棋类游戏,状态是离散的,状态的数量是有限的。但在动作类游戏(如打飞机)中,状态是画面中的每个物体(飞机,敌人,子弹等等)所处的位置和运动速度的组合。状态是连续的,而且数量几乎是无限的。
  • 动作是指手柄的按键组合,包括方向键和按钮的组合,当然也包括什么都不按(不做任何动作)。
  • 奖励是指游戏的得分,每击中一个敌人都可以得到一些得分的奖励。
  • 策略是Agent脑子里从状态到动作的映射。也就是说,每当 Agent 看到一个游戏画面(状态),就应该知道该如何操纵手柄(动作)。RL 算法的任务就是找到最佳的策略。

DreamerV2 是一种理解环境的强化学习算法,我们称为 Model-Based RL。

DreamerV2 只需要输入游戏的图像画面,即可学习。它建立在循环状态空间模型(RSSM)的基础上,在训练过程中,编码器会对图像进行随机表示,并整合到世界模型的循环状态中。

由于画面表示是随机的,Agent 需要提取有效信息再进行预测,这样可以让 Agent 对未见过的画面更具鲁棒性。

DreamerV2 的详细论文解读,可以看这个视频:

https://youtu.be/o75ybZ-6Uu8

跑起来

DreamerV2 项目地址:

https://github.com/danijar/dreamerv2

算法需要使用 Tensorflow 2,版本为 2.3.1,用的游戏环境是 OpenAI 的 Gym。

这是一个支持 Python 语言的游戏环境库,一款用于研发和比较强化学习算法的工具包,它支持训练 Agent 做任何事情,从行走到玩游戏。

直接安装需要的第三方库。

pip install --user tensorflow==2.3.1
pip install --user tensorflow_probability==0.11.1
pip install --user pandas
pip install --user matplotlib
pip install --user ruamel.yaml
pip install --user 'gym[atari]'

配置好后,就可以开始训练我们自己的 Agent 了。

python dreamer.py --logdir ./logdir/atari_pong/dreamerv2/1 \
    --configs defaults atari --task atari_pong

使用 Tensorboard 监控训练情况。

tensorboard --logdir ./logdir

动手训练一个自己的 Agent 吧!

我是 Jack,我们下期见

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 游戏人生之《雷顿教授与不可思议的小镇》

      工作算来已有不少时间,平日之工作也大抵围绕着自己喜爱的游戏,虽说常常加班加点,但也可谓乐在其中,也许正应了那句老话:痛,并快乐着 :)

    用户2615200
  • 赛博朋克风VR游戏,以娱乐形式思考科技和人性

    谈及VR等科技,小编认为“赛博朋克(Cyberpunk)”不得不提。此前,可能很多人只听过“蒸汽朋克(Steampunk)”,那么简单来说,蒸汽朋克描述的是历史...

    VRPinea
  • VR游戏推荐之:论《如何让小盆友们好好地度过这个暑假》

    已时至七月中旬,又到了令小朋友们喜大普奔的暑假时间。同时,也是家长们更加劳心劳力的一段时期。如何平平安安、“你好、我好、大家好”地度过这个假期,又成了摆在家长眼...

    VRPinea
  • 被infoQ采访:游戏中应用强化学习技术,目的就是要打败人类玩家?

    2016 年,DeepMind 公司开发的 AlphaGo 4:1 大胜韩国著名棋手李世石,成为第一个战胜围棋世界冠军的人工智能机器人,一时风头无两。Alpha...

    黄鸿波
  • Atari联合创始人去世,为什么游戏对AI很重要?

    新智元
  • Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位

    对于大多数游戏玩家来说,游戏内置的电脑AI,似乎都是一个笑话,更应该被称为“人工智障”。

    新智元
  • 游戏开发中的 MDA 模型

    王兵
  • 10岁女程序员,婉拒谷歌Offer,研发全球首款AI桌游,现在是一名CEO

    最近,硅谷出现了一款AI桌游,名叫CoderMindz,能够帮助大小朋友们(4-104岁)学习基本的AI概念,包括模型、推理、自适应学习等。

    量子位
  • 谷歌AI“你画我猜”强推“狗年版本”,腾讯AI要帮你修老照片 | 竹货新春

    ? 今天大年初一。为了庆贺中国农历狗年的到来,谷歌刚刚在自己的AI“你画我猜”游戏中更新了狗狗版本。 (你画我猜,介系里没有挽过的船新版本。挤需体验三番钟,...

    量子位
  • 新的一年,DeepMind准备让AI学会「放烟花」

    近日,DeepMind 与 Google Brain 团队合作发布了 Hanabi 学习环境(HLE)的代码和论文,这是一个基于流行纸牌游戏的多智能体学习和即时...

    机器之心
  • Google Play Awards2017提名揭晓,新增“最佳VR/AR体验奖”

    VRPinea
  • 在恋爱游戏里跟你实时聊天的“AI”,其实可能是一位抠脚大汉

    这是一款男性向的恋爱游戏,名字叫做《Plus Links~与你联系的思念~》(原名:プラスリンクス ~キミと繋がる想い~),有PC版和手机版。

    量子位
  • 非得从零开始学习?扒一扒强化学习的致命缺陷

    Deepmind在Alphago上的成就把强化学习这一方法带入了人工智能的主流学习领域,【从零开始学习】也似乎成为了抛弃人类先验经验、获取新的技能并在各类游戏击...

    大数据文摘
  • 宅在家学不进去吗?试试这些 GitHub 上简单易学的游戏项目吧

    这是本人宅在家里的第 4 周,代码不想看,技术文章不想读,都不能愉快学习了我还怎么当一个优秀的需求消化师呢?有没有什么轻松地方法来学习技术呢?想起了小时候金山打...

    五分钟学算法
  • 学界 | DeepMind 将博弈论融入多智能体研究,让纳什均衡变得更简单

    AI 科技评论按:随着 AI 系统在现实生活中变得越来越重要,我们自然该探索不同系统间的交互方式了,这些多智能体间到底用了什么独特的方式呢? 在 DeepMin...

    AI科技评论
  • 游戏AI探索之旅:从AlphaGo到MOBA游戏

    腾讯技术工程官方号
  • AI成功试水的第一款街机游戏是什么样子

    2016年,google旗下deep mind团队完成了一个历史性的壮举,其开发的AlphaGo程序以 4:1的结果战胜了世界围棋冠军李世乭,成为了举世闻名的事...

    HuangWeiAI
  • 一周VR热点回顾:搞事!搞事!要搞事!

    VRPinea
  • 5.3 VR扫描:小米VR合作Archiact,SteamVR奠基人离开Valve

    VRPinea

扫码关注云+社区

领取腾讯云代金券