前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI在雅达利游戏上用八十年代算法打败了DeepMind

OpenAI在雅达利游戏上用八十年代算法打败了DeepMind

作者头像
HuangWeiAI
发布2019-07-30 15:05:58
9420
发布2019-07-30 15:05:58
举报
文章被收录于专栏:浊酒清味浊酒清味

OpenAI是一家由诸多硅谷大佬在2015年联合创立的公司,SpaceX的传奇CEO“钢铁侠”马克斯便是联合创始人之一。和Google旗下开发出AlphaGo的Deepmind公司一样,OpenAI研究重心也放在了前沿的机器学习技术,尤其是强化学习。与DeepMind不同的是,OpenAI会将其研究成果进行开源分享,让更多人拥有和使用AI。其著名的Gym工具包,为强化学习研究者提供了优质的实验载体,给大家测试强化学习算法提供了一个绝佳的环境。

比如这个叫做Mountain Car的小游戏,AI程序需要通过尝试,学会爬到右边的山顶拿到棋子,完成游戏。以后我们会给大家展示如何写一个Python来玩这个游戏。

书归正传,现在人工智能的研究其实有一个非常显著的趋势,就是“重新发现”。其实,人工智能研究有着研究的历史,在上个世纪80-90年代不乏很多窥见本质的想法,但是由于计算机计算能力和大数据的限制,很多想法并不被学术界和工业界看好。于是你会发现,近年来很多想法被大家重新发现,并取得了重大进展。比如2015年DeepMind团队开发的深度Q学习算法,就是在Q学习基础上引入深度神经网络,大大提升了Q学习本身的学习能力,最终在一款叫做雅达利breakout打砖块游戏上取得突破性进展。

在学习后期,AI可以自动钻研出高阶技巧:让球自动绕过下面的砖块而跑到顶端实现多次连击。

在2017年,OpenAI团队开发的新算法可以比肩甚至超过了DeepMind团队的深度Q学习算法。其算法的核心是一个在80年代被提出来的“进化策略”。这是一种已知数十年的优化技术,特别是它实现起来比神经网络要简单,更容易扩展到更大的数据任务上,同时有着更少超参数。但是由于想法过于简单,多年来大家认为它无法克服所谓的高维问题。然而,OpenAI团队却完成了进化策略的逆袭,一举打破了深度Q学习算法的垄断地位。

在正式介绍如何用进化策略来玩游戏的之前,我们先简要介绍一下强化学习的工作原理。假设有一些我们想要培训AI特工的环境(例如游戏)。为了描述特工的行为,我们定义了一个策略函数(比如大脑),它计算特工在任何给定情况下应该如何行动。在实践中,策略通常是神经网络,其将游戏的当前状态作为输入并计算采取任何允许的动作的概率。典型的策略函数可能具有大约1,000,000个参数,因此我们的任务归结为找到这些参数的精确设置,使得策略运行良好(即赢得大量游戏)。

在这个乒乓球游戏中,左边的观测图片作为AI的输入,AI观察分析得到乒乓球的位置,经过中间的神经网络,最后输出决策,即向上移动,向下移动,保持不变,这个三个动作的行动概率。训练的过程是,神经网络会观察很多游戏试玩样本,通过学习这些样本,强化能获得高奖励的动作,弱化获得低奖励的动作。在学习中不断提高,最终成为游戏大师。

尽管“进化”这个词和生物中的进化论关系不大。但这些技术的早期版本可能受到生物进化的启发,并且该方法可以在抽象层面上被视为对一群个体进行抽样,并允许成功的个体决定后代的分布。然而,数学细节是从生物进化中大量抽象出来的,最好将进化策略视为一类黑盒随机优化技术。

进化策略算法完全忘记了存在特工,环境,以及神经网络,或者随着时间的推移发生交互等等。整个设置相对非常简单:1,000,000个数字(恰好描述了策略网络的参数)进去,1个数字出来(总奖励)。我们的目标就是要找到这1,000,000个参数最优组合,从而获得最好的奖励。在数学上,我们会说,我们针对优化函数f(w),去优化其1000,000个参数w, 但我们不对f的结构做出任何假设,除了我们可以对其进行评估。直觉上,优化是一个“猜测和检查”过程,我们从一些随机参数开始,然后重复两个步骤 (1)随机调整猜测 (2)稍微调整我们的猜测,以适应更好的调整。具体地说,在每个步骤中,我们采用参数w并通过用高斯噪声抖动w来生成例如100个稍微不同的参数向量w1... w100的总体。然后,我们通过在环境中运行相应的策略网络一段时间来独立评估100个候选者中的每一个,并在每种情况下累加所有奖励。然后,更新的参数矢量变为100个矢量的加权和,其中每个权重与总奖励成比例(即,我们希望更成功的候选者具有更高的权重)。

最终的结果是OpenAI的进化策略算法在多项游戏上可以抗衡DeepMind开发的算法。

比如这个鬼畜游戏,哈哈。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 浊酒清味 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档