OpenAI在雅达利游戏上用八十年代算法打败了DeepMind

HuangWeiAI

发布于 2019-07-30 15:05:58

9840

发布于 2019-07-30 15:05:58

文章被收录于专栏：浊酒清味

OpenAI是一家由诸多硅谷大佬在2015年联合创立的公司，SpaceX的传奇CEO“钢铁侠”马克斯便是联合创始人之一。和Google旗下开发出AlphaGo的Deepmind公司一样，OpenAI研究重心也放在了前沿的机器学习技术，尤其是强化学习。与DeepMind不同的是，OpenAI会将其研究成果进行开源分享，让更多人拥有和使用AI。其著名的Gym工具包，为强化学习研究者提供了优质的实验载体，给大家测试强化学习算法提供了一个绝佳的环境。

比如这个叫做Mountain Car的小游戏，AI程序需要通过尝试，学会爬到右边的山顶拿到棋子，完成游戏。以后我们会给大家展示如何写一个Python来玩这个游戏。

书归正传，现在人工智能的研究其实有一个非常显著的趋势，就是“重新发现”。其实，人工智能研究有着研究的历史，在上个世纪80-90年代不乏很多窥见本质的想法，但是由于计算机计算能力和大数据的限制，很多想法并不被学术界和工业界看好。于是你会发现，近年来很多想法被大家重新发现，并取得了重大进展。比如2015年DeepMind团队开发的深度Q学习算法，就是在Q学习基础上引入深度神经网络，大大提升了Q学习本身的学习能力，最终在一款叫做雅达利breakout打砖块游戏上取得突破性进展。

在学习后期，AI可以自动钻研出高阶技巧：让球自动绕过下面的砖块而跑到顶端实现多次连击。

在2017年，OpenAI团队开发的新算法可以比肩甚至超过了DeepMind团队的深度Q学习算法。其算法的核心是一个在80年代被提出来的“进化策略”。这是一种已知数十年的优化技术，特别是它实现起来比神经网络要简单，更容易扩展到更大的数据任务上，同时有着更少超参数。但是由于想法过于简单，多年来大家认为它无法克服所谓的高维问题。然而，OpenAI团队却完成了进化策略的逆袭，一举打破了深度Q学习算法的垄断地位。

在正式介绍如何用进化策略来玩游戏的之前，我们先简要介绍一下强化学习的工作原理。假设有一些我们想要培训AI特工的环境（例如游戏）。为了描述特工的行为，我们定义了一个策略函数（比如大脑），它计算特工在任何给定情况下应该如何行动。在实践中，策略通常是神经网络，其将游戏的当前状态作为输入并计算采取任何允许的动作的概率。典型的策略函数可能具有大约1,000,000个参数，因此我们的任务归结为找到这些参数的精确设置，使得策略运行良好（即赢得大量游戏）。

在这个乒乓球游戏中，左边的观测图片作为AI的输入，AI观察分析得到乒乓球的位置，经过中间的神经网络，最后输出决策，即向上移动，向下移动，保持不变，这个三个动作的行动概率。训练的过程是，神经网络会观察很多游戏试玩样本，通过学习这些样本，强化能获得高奖励的动作，弱化获得低奖励的动作。在学习中不断提高，最终成为游戏大师。

尽管“进化”这个词和生物中的进化论关系不大。但这些技术的早期版本可能受到生物进化的启发，并且该方法可以在抽象层面上被视为对一群个体进行抽样，并允许成功的个体决定后代的分布。然而，数学细节是从生物进化中大量抽象出来的，最好将进化策略视为一类黑盒随机优化技术。

进化策略算法完全忘记了存在特工，环境，以及神经网络，或者随着时间的推移发生交互等等。整个设置相对非常简单：1,000,000个数字（恰好描述了策略网络的参数）进去，1个数字出来（总奖励）。我们的目标就是要找到这1,000,000个参数最优组合，从而获得最好的奖励。在数学上，我们会说，我们针对优化函数f(w)，去优化其1000，000个参数w, 但我们不对f的结构做出任何假设，除了我们可以对其进行评估。直觉上，优化是一个“猜测和检查”过程，我们从一些随机参数开始，然后重复两个步骤 (1）随机调整猜测 (2）稍微调整我们的猜测，以适应更好的调整。具体地说，在每个步骤中，我们采用参数w并通过用高斯噪声抖动w来生成例如100个稍微不同的参数向量w1... w100的总体。然后，我们通过在环境中运行相应的策略网络一段时间来独立评估100个候选者中的每一个，并在每种情况下累加所有奖励。然后，更新的参数矢量变为100个矢量的加权和，其中每个权重与总奖励成比例（即，我们希望更成功的候选者具有更高的权重）。

最终的结果是OpenAI的进化策略算法在多项游戏上可以抗衡DeepMind开发的算法。