0.内容提要
DeepMind团队提出一种多任务深度强化学习方法PopArt,实现了单智能体同时学习57款不同的雅达利游戏的平均表现首次超过人类平均水平,达到目前技术的顶级水平。该方法对于单智能体需要在现实中复杂的多任务领域平衡不同学习目标的奖励策略提供了途径。简单说就是一个智能体可以同时干好多个任务的通用能力。
1.模型原理
该方法原理上是针对了智能体在不同任务的强化学习时,奖励的规模不同会造成智能体的性能出现很大差别。比如在pong游戏中,智能体每一步的奖励为-1,0或1。但是在Ms. Pac-Man中每一步可以得到成百上千的奖励。这就会造成智能体对不同任务学习能力的不均衡。
这里提出了一种PopArt规范化方法,将其用于基于值的强化学习中,可以将不同任务的奖励调整为相同规模,从而避免了不均衡奖励的问题,使得同一个智能体在不同任务上的平均表现达到了顶级性能水平。
PopArt规范化的主要更新调整算法如下,详细说明参见全文,下载方式见文章开头。



2.仿真试验
DeepMind分别在Atari-57和DmLab-30这两个具有挑战性的多任务基准上评估了该方法,这两个基准分别基于Atari和DeepMind实验室提出。在所有的基准上我们的方法都表现出了顶级的性能水平。
为了汇总多任务的得分,我们将每个任务的得分标准化,基于人类玩家和同一任务的随机智能体的得分。所有实验都使用基于人群的训练(PBT)来调整超参数。
3.性能验证
新方法PopArt与DeepMind之前提出的IMPALA方法相比,性能水平显著提高。而且该中值性能已经超过了人类的中值水平。

上图是不同方法在57款雅达利游戏的标准化性能中值。该智能体使用相同的神经网络来玩所有这些游戏,每条线代表一个智能体的中值性能。实线表示使用“裁剪奖励”的地方。虚线表示使用了“未裁剪的奖励”。