进化策略让 AI 开挂,玩游戏不断给自己续命

这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。 原标题 This Evolving AI Finds Bugs in Games - Two Minute Papers #250 翻译 | 孙启超 整理 | 凡江

强化学习会通过在系统中选择一系列的行为,把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能,例如在 Q bert 游戏中,人工智能每走一步,都要计算出合适的操作来控制这个橙色的光标,并在不碰到紫色敌人的情况下,点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。

Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。

更酷的是,在经过 5 个小时的训练后,我们发现该算法不仅能掌控游戏,还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

当它下落牺牲自己来引诱紫点时,出了个小故障,令我们惊喜的是,当从这个位置下落的时候,它应该是丢一条命,但因为这是个 BUG,所以没有死掉。

厉害~ AI 给自己续命

还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳,然后突然跳到另外一条路径上。

它发现并利用了另一个很严重的 BUG,据我所知这个 BUG 以前从来没有发生过,在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会 我们看到游戏并没有进入下个阶段,那些方格开始闪烁,人工智能可以想要多少分就拿多少分。

分数蹭蹭往上涨

通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。

视频原址:

https://www.youtube.com/watch?v=wm8tK91k37U&t=105s

论文原址:

https://arxiv.org/pdf/1802.08842.pdf

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏达观数据

技术干货 | 达观数据新用户推荐的三大利器

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣。但对于新用户而言,没有任何的用户行为,如何进行最有效的推荐呢?这就衍生了用户冷启动问题。 在当下...

35030
来自专栏小小挖掘机

云计算资源配置的联合优化研究

本文介绍一篇采用随机规划模型来进行虚拟机和带宽资源配置的论文。这个成果来自于南洋理工大学计算机工程学院Chase 、Niyato两位学者的研究,该文章于2017...

47170
来自专栏AI科技评论

视频 | 进化策略让AI开挂,玩游戏不断给自己续命

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。

11120
来自专栏机器之心

业界 | 深度定制:揭秘Graphcore深度学习芯片加速软件

选自The Next Platform 作者:Nicole Hemsoth 机器之心编译 参与:侯韵楚、黄小天、李泽南 两年来,我们推出了一系列专为处理神经网络...

35070
来自专栏大数据文摘

学习AI可能不需要那么多数学知识:20小时进阶计划

23150
来自专栏钱曙光的专栏

AI 重新定义 Web 安全

目前近 90% 的企业都已经开始使用云计算(包括公有云、私有云等),这说明大规模云化对于企业而言已经不只是趋势,更是确凿的既成事实,云化普及的同时也给安全带来很...

46300
来自专栏机器之心

入门 | 关于TensorFlow,你应该了解的9件事

我总结了今年 Google Cloud Next 大会上我最爱的一段演讲——What's New with TensorFlow?(https://www.yo...

14640
来自专栏机器学习人工学weekly

机器学习人工学2018/1/7

新年快乐! 注意下面很多链接需要科学上网,无奈国情如此 1. Berkeley AI Research blog上发了篇文章讲physical advers...

40490
来自专栏大数据文摘

研究上千张数据图表后 我学到12条可视化的秘密准则 | 附资源

33040
来自专栏AI科技评论

干货 | 这些关于 TensorFlow 问题的解答,你不能错过

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课, www.m...

33050

扫码关注云+社区

领取腾讯云代金券