开源啦:连DeepMind也捉急的游戏,OpenAI给你攻破第一关的高分算法

圆栗子 发自 凹非寺 量子位 出品

写作“很好奇”,读作“不怕死”。

佛系操作

打游戏的时候,有些平淡的操作,还没执行就看得到结果

比如玩马里奥,可以不去踩敌人,一路往前跳。

可是,没试过怎么知道,哪些敌人可以踩?

一扇门,不推开怎么知道里面是什么?

就是死,也要进去看一眼 (来自山下智博)

人类玩家有好奇心,大概AI也要有好奇心比较好。

OpenAI想要鼓励强化学习AI,去探索未知的世界,不要局限在已知的舒适区。

于是,团队推出了一种方法,叫做“随机网络蒸馏 (Random Network Distillation, RND) ”,专注培养AI的好奇心:隐藏房间什么的,只有好奇的AI才能发现。

当然,这方法不止用来打马里奥,不然就屈才了。

蒙特祖玛的复仇

用RND加持的算法打蒙特祖玛的复仇 (最难的雅达利游戏,可称强化学习AI的噩梦),智能体逃出了第一关的全部24个房间,成绩远远超过人类的平均分数 (4.7k) ,以及现有最前沿的算法。

鼓励探索,当然是用高额奖励

RND是一种基于预测的方法。

给每一个备选的动作,预测一下结果:

如果,结果非常容易预测,奖励分就偏低。

结果越难预测,就表示越“未知”,奖励分也越高。

第一次离开家,并不知道外面的危险 (还是来自山下智博)

重赏之下,AI探索新世界的意愿就会更强了。

不过,预测结果有个难点,叫做嘈杂电视问题 (Noisy-TV Problem) :

举个栗子,在一个迷宫游戏里,摆一台“电视”,播放随机频道。

走到电视里面前,智能体就停下来不走了。

一旦没有了“电视”,智能体又能正常玩耍了。

是预测受到了干扰。

为了避免这样的干扰,团队定义了预测误差的三个因素

一号因素,预测误差很高,预测器无法从之前看到的例子中泛化。后面的经历会受到高预测误差的影像。 二号因素,预测误差很高,因为预测目标是随机 (Stochastic) 的。 三号因素,预测误差很高,因为缺少必要信息,或者预测器模型的局限性太大,无法适应复杂的目标函数。

OpenAI团队判断,一号是必要的,因为它把新颖程度量化了,二号和三号则需要竭力避免。

RND就是为了避免这两个因素,而诞生的探索奖

上图是传统预测RND预测的对比。

避免二号因素,就要让神经网络给出确定性的答案,而不是给出多个答案和它们各自的可能性;

避免三号因素,就要选择和目标网络相同的架构。

对蒙特祖玛的复仇来说,这样特殊的奖励机制尤其必要:

如果是一般的游戏,简单的探索策略就够用了,但蒙特祖玛里面,除了拿到钥匙有奖励、碰到骷髅会死之外,其余都是0,AI很难感受到游戏规则,也不易学到有用的经验。

加重探索奖,才能让AI更加理解游戏

团队表示,RND不止蒙特祖玛的复仇适用,马里奥等等其他游戏也适用。以及,越过游戏范畴,更加广泛的强化学习AI也都可以用这个方法,让智能体对新鲜事物更好奇。

好奇的宝宝成绩好

从最简单的雅达利打砖块开始观察。

砖块排列发生变化,奖励就会达到峰值

内在奖励,指探索奖; 外在奖励,指游戏中直接体现的奖励,如游戏分值。

每当智能体打下一块砖,砖块有了新的排列格式,内在奖励就会达到峰值 (训练伊始) 。

当它首次通过第一关的时候,内在奖励也达到了峰值 (训练数小时后) 。

再看超级马里奥。

内在目标外在目标已经基本一致了。

智能体通过了11关,找到了许多隐藏的房间,并打败了库巴大魔王

接下来,就是蒙特祖玛的复仇。

最好成绩,当然是24个房间都攻破,顺利通过第一关,得分17.5k

并且,多数情况下,智能体都能解锁20-22个房间,得分14.5k

对比一下,人类平均分是4.7k

有代码,有论文

现在,OpenAI已经把RND开源了,可以从传送门前往瞻仰:

https://github.com/openai/random-network-distillation

还有,论文也公开了:

https://arxiv.org/pdf/1810.12894.pdf

博客在这里:

https://blog.openai.com/reinforcement-learning-with-prediction-based-rewards/

吃蘑菇,变成弹簧 (依然来自山下智博)

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-11-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

软件正在吃掉我们的世界,深度学习也正吃掉机器学习

【新智元导读】人工智能、机器学习、深度学习方面的文章铺天盖地,向人们传播人工智能是改变世界最具竞争力的技术,相关企业应该抓住机会作深入研究,但是人们对于这三个词...

37180
来自专栏腾讯高校合作

犀牛鸟基金获奖者中科院自动化所刘康博士获COLING2014最佳论文奖

<图为在中国计算机大会上吕建院士、王巨宏女士为刘康博士(中)颁奖> 在刚刚结束的第25届计算语言学国际会议COLING2014颁奖仪式上,CCF-腾讯犀牛鸟基...

33470
来自专栏前沿技墅

Machine Learning哪家强 强化学习So Strong

博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/...

15330
来自专栏人工智能的秘密

黑箱难题阻碍了深度学习的普及与发展

当前,深度学习扛起了人工智能的大旗,让我们了解到了智能机器的能力有多大,但是有个问题就是:没有人知道它内部究竟是怎么运作的。

22850
来自专栏大数据挖掘DT机器学习

两个月入门深度学习,全靠动手实践

向AI转型的程序员都关注了这个号??? 搞CNN的工程应用有一段时间了,特别是在计算机视觉领域。分享下我自己的CNN学习历程。 简单的说,深度学习就是模仿人脑...

49380
来自专栏镁客网

研究人员改进全息图的“胶片”结构,利用纳米硅柱使三维图像构造起来更容易 | 黑科技

15700
来自专栏AI科技评论

吴恩达专访LeCun:即便在神经网络的寒冬,我也坚信它终会重回公众视野

时隔半年,终于等来了 Yann LeCun 回忆杀视频。 去年 8 月时,随着 deeplearning.ai 深度学习教学网站和系列课程的发布,吴恩达也在「t...

28850
来自专栏大数据文摘

昨天没能去清华亲眼见到Yann LeCun?这有一份演讲精华(提纲+PPT)

13820
来自专栏人工智能头条

病人是否有生命危险?机器学习告诉你——专访南加州大学终身教授刘燕

13940
来自专栏AI科技评论

吴博:目标检测集成框架在医学图像 AI 辅助分析中的应用 | AI 研习社第 78 期大讲堂总结

AI 科技评论按:如何界定 AI 用于医学图像分析时的范畴,设置相关的任务及采用合理的模型方法?医学图像分析中目标检测任务的普遍性,使得开发目标检测集成框架显得...

45030

扫码关注云+社区

领取腾讯云代金券