前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习+扩散模型的综述

强化学习+扩散模型的综述

作者头像
算法进阶
发布2023-12-13 10:03:39
1.1K0
发布2023-12-13 10:03:39
举报
文章被收录于专栏:算法进阶

1 前言

扩散模型(Diffusion Model)已成为一种十分强大的生成模型,在多个领域取得了显著进展。在强化学习(RL)领域,扩散模型被应用于序列决策任务,特别是在离线RL中,用于拟合轨迹生成、规划未来轨迹、替换传统高斯策略、增强经验数据集、提取潜在技能等

得益于扩散模型强大而灵活的分布建模能力,这为解决强化学习中的长期挑战提供了帮助。本综述概述了扩散模型在RL中的进展,并探讨了如何解决现有挑战。

2 强化学习的挑战

2.1 离线学习的表达能力受到限制

在线强化学习因样本效率低而受到批评,离线强化学习避免了与环境交互的需要,显著提高样本效率。直接应用于离线学习的策略强化学习方法会受到外推误差问题的影响。现有的工作通过惩罚分布外样本的价值预测或限制学习策略来缓解外推误差问题,但存在过于保守或表现力有限的问题。

通过监督学习框架的强化学习现在正成为离线强化学习的另一个重要范式,它绕过了Q学习的需要,没有外推误差。RvS通过监督学习学习基于观察到的回报的策略,然后在在线评估期间以足够高的回报来约束学习策略,以产生期望的行为。与策略约束方法类似,RvS需要拟合整个离线数据集,因此参数化策略的表现力在RvS中也很重要。扩散模型可以表示任意可归一化的分布,有可能有效地提高策略约束和RvS算法在复杂数据集上的性能。

2.2 经验回放中的数据稀缺

离线和离线RL方法使用经验重放提高样本效率。经验重放指数据更新当前模型。离线RL中,由于速度限制和潜在空间,训练期间可用的数据可能不足。策略学习更多地受到数据集的质量和覆盖范围的限制。受计算机视觉中数据增强的启发,一些工作实现了类似技术以缓解数据稀缺问题。RAD使用图像增强技术,如随机裁剪或旋转,提高基于视觉的RL的学习效率。Imre和Cho等人使用生成模型、VAE和GAN,用从学习数据分布中采样的合成数据来增强真实数据集。但现有工作要么缺乏保真度,要么仅限于简单环境。扩散模型在图像和视频合成等领域表现显著,更适合用于增强具有复杂交互的高维数据集。

2.3 基于模型的规划中的复合误差

基于模型的 RL(MBRL)从数据中拟合动态过渡模型,但单步预测误差可能导致多步规划中的复合误差问题。扩散模型可以在轨迹级别上运行,提供更好的时间一致性和更少的复合误差。

2.4 多任务学习的泛化

现有的RL算法在任务层面缺乏泛化能力,改变奖励函数需要从头开始重新训练策略。在线多任务RL存在梯度冲突和样本效率低的问题。利用离线数据集训练的高容量模型已成为热门研究方向,但需要高质量数据集和较大的参数大小。扩散模型可以处理多任务数据集中的多模态分布,并适应新任务,是一种有效的多任务RL算法。

3 扩散模型的介绍

扩散模型的基础包括著名的去噪扩散概率模型(DDPM)和基于得分的生成模型。DDPM因简单而广泛使用,基于得分的模型将其扩展到包括连续时间扩散过程。引导采样方法在将扩散模型集成到RL框架中起重要作用,分为分类器引导和无分类器引导。为提高采样速度,特别是在在线交互期间,扩散模型在RL相关任务中采用快速采样技术,包括基于学习和无学习的方法。

3.1 去噪扩散概率模型

去噪扩散概率模型(DDPM)利用参数化扩散过程来模拟真实数据如何被去噪为纯噪声。扩散过程每一步由x_t表示,T表示总步骤数。扩散模型和强化学习(RL)都使用时间步长表示法。序列x_T:0被定义为具有学习高斯转移的马尔可夫链:

pθ(xt−1|xt) = N (µθ(xt,t), Σ(xt,t))

反向过程为x_0:T,每一步都是正向转移q(x_t |x_t-1)。这种转移可以解释为根据方差调度β_1:T向数据添加高斯噪声:

xt=√αtxt−1+√1−αtϵt

从标准高斯噪声中采样xT,并逐步去噪,直到获得x0。然而,噪声变量ε仍然是未知的。为了解决这个问题,我们采用参数为θ的网络εθ来学习噪声生成过程。损失函数是使用随机变量ε生成的μ(xt,t)和网络输出εθ之间的距离。

3.2 基于得分的生成模型

DDPM是一种迭代采样过程,每一步都以离散时间间隔进行。Song等人将其扩展到连续时间情况,并使用随机微分方程(SDE)描述:

dx=f (x,t)dt+g(t)dw

DDPM过程方程的例子表示为f(x,t)=−1/2β(t)x,g(t)=√β(t)。逆时间SDE描述了采样过程,其中梯度项被称为得分函数。得分匹配提出可以训练参数化的基于得分的模型来替代得分函数。在这种情况下,可以使用各种ODE求解器有效地求解,如VODE和黑盒ODE求解器。

3.3 引导采样方法

条件扩散模型关注条件数据分布p(x|y),分为分类器引导和无分类器引导两类。分类器指导采样的优点是分类器和扩散模型独立训练,而无分类器引导性能更好,但需要重新训练模型。

分类器引导。训练一个可微判别模型p(y|x),然后在噪声样本xt上训练额外分类器p(y|xt)。假设分类器已预先训练。逆过程为:

pθ,ϕ(xt|xt+1,y)=Zpθ(xt|xt+1)pϕ(y|xt) ,(8)

其中Z为归一化因子。Dhariwal和Nichol指出,方程(8)可近似看作另一个高斯分布:

p(xt|xt+1, y) = N (µ(xt, t) + sΣ(xt, t)g, Σ(xt, t)),

采样过程为:xt+1∼ N (µ + sΣg, Σ),其中Σ是Σ(t, xt)的缩写。

无分类器引导。无分类器方法通过预测得分函数∇x log p(x|y)来估计条件数据分布p(x|y),得分函数可分解为无条件项和分类器条件项:

∇xlog p(x|y) = ∇xlog p(y|x) + ∇xlog p(x) ,(9)

原始训练设置被修改,扩散模型需要重新训练。条件和无条件模型使用相同的网络参数集进行训练,在训练期间以预先指定的概率随机设置c=∅。扩散模型和得分函数是等价的,这表明∇xt log p(xt ) ∝ ϵ(xt , t)。现在可以将它代入分类器指导的公式中,其中w代表指导尺度。

¯ϵw(xt,y)=ϵθ(xt,y)+w(ϵθ(xt,y)−ϵθ(xt))=(1+w)ϵθ(xt,y)−wϵθ(xt)

3.4 快速采样方法

扩散模型因迭代采样时间过长受到批评。为解决此问题,提出了几种快速采样技巧,包括扩展扩散模型至更基本范式以提高效率。这些方法分为两类:不涉及学习(无学习)和需要额外学习(基于学习)。

无学习采样方法。去噪扩散隐式模型(DDIM)是一种采样加速方法,通过学习马尔可夫链将DDPM扩展到非马尔可夫情况。DDIM是求解PF-ODE方程的离散版本,后来出现了高阶求解器DPM-solver,提高了求解效率,优于常见数值ODE求解器。

基于学习的采样方法。基于学习的采样方法通过额外学习过程提高采样效率,如TDPM(Zheng等人)和Watson等人的方法。TDPM通过截断扩散和去噪过程,减少迭代步骤。Watson等人通过学习选择最佳K个时间步长,以最大化DDPM的训练目标,从而减少去噪步骤。

4 扩散模型在RL中的作用

扩散模型已被证明具有生成不同数据和模型多模分布的能力,对于长期存在的挑战,使用扩散模型提高RL算法的性能和采样效率是一个有效的解决方案。下图说明了扩散模型在RL中的独特作用。目前,将扩散模型应用于RL的工作主要分为四类:使用扩散模型作为规划器、策略、数据增广和潜在表示

图1 说明与之前的解决方案相比,扩散模型如何在经典的代理-环境-缓冲区循环中发挥不同的作用。(1) 当用作规划器时,扩散模型在每个去噪步骤中优化整个轨迹,而自回归模型仅根据先前规划的部分子序列生成下一步输出。(2)当用作策略时,扩散模型可以对任意动作分布进行建模,而高斯策略只能将可能多样化的数据集分布与单峰分布进行拟合。(3) 当用作数据合成器时,扩散模型使用从学习的数据集分布中采样的生成数据来增强数据集,而随机扰动的增强可能会生成偏离数据样本的样本。

图2 扩散模型在RL中的不同作用。(a)扩散模型作为规划器。采样目标是轨迹的一部分,其成分可能因特定任务而异。(b)扩散模型作为策略。采样目标是在状态条件下采取的行动,通常由Q函数通过策略梯度式指导或直接从训练目标中减去。(c)扩散模型作为数据合成器。采样目标也是轨迹,真实数据和合成数据都用于下游策略改进。为了更好的可视化,我们省略了(c)中N去噪迭代的箭头,只显示了随机采样的噪声生成的合成数据。

4.1 规划器

强化学习的规划是在想象环境中做出决策,以最大化累积奖励信号。规划通常应用于多智能体强化学习框架,但自回归生成的决策序列可能导致复合误差。扩散模型可以解决此问题,因为它们可以同时生成整个序列。

4.2 策略

与传统强化学习分类法相比,扩散模型作为规划器与MBRL类似,作为策略则遵循无模型强化学习框架。离线政策学习框架的主要缺点是过于保守和对多样化数据集的能力较差,而扩散模型由于其出色的多模态分布表达能力,被用于解决这些问题。

4.3 数据合成器

扩散模型在计算机视觉和强化学习(RL)中广泛用于生成更多训练样本。在RL中,扩散模型作为数据合成器,可生成与环境动态一致的多样化数据,提高策略性能和样本效率。Lu等人的研究表明,扩散模型生成的数据质量高于显式数据增强生成的数据。此外,He等人[2023a]使用扩散模型增强多任务离线数据集,实现了更好的性能。

4.4 其他

Hegde等人采用超网络思想,为质量多样性强化学习生成策略参数,训练后的扩散模型将策略参数压缩到潜在空间中。Mazoure等人结合学习奖励估计器,使用扩散模型估计价值函数,并根据定义直接计算价值函数。Venkatraman等人遵循潜在扩散模型,将高级轨迹编码为语义丰富的表示,然后对其应用扩散模型,实现更高的能力。

5 扩散模型在RL的应用

扩散模型在强化学习中相关应用可分为四类:离线强化学习、模仿学习、轨迹生成和数据增强。

5.1 离线强化学习

离线 RL 旨在从静态数据集 D 中学习策略,而无需在线交互。离线 RL 的基本挑战是分布转变,即函数近似器(例如策略、价值函数)在一个分布下训练,但在不同的分布上进行评估,导致学习策略的性能不佳。高维和表达性的函数近似通常会加剧这个问题。

扩散模型被用于解决或避免RL中的挑战,如克隆行为策略与真实行为策略之间的近似误差。方法包括使用分类器引导采样的迭代去噪过程、将策略表示为扩散模型以捕获多模态分布、使用无分类器指导的低温度采样来消除分布偏移的风险、提高扩散模型对RL的生成能力、保证规划轨迹的安全生成、解决长期决策问题、计划准确地匹配期望的轨迹、利用一致性模型进行快速训练和采样、通过使用单步模型预测作为动作近似来获得加速,以及用于提取奖励函数或价值函数。尽管取得了进展,但使RL代理泛化到多任务和多代理场景仍然是一个挑战。

多任务离线RL。扩散模型具有解决多任务强化学习挑战的潜力,He等人扩展了条件扩散模型,LCD利用层次结构实现长期多任务控制,Ni等人和Liang等人将扩散器扩展到更具体的情境中。MetaDiffuser和AdaptDiffuser分别将条件扩散模型整合到任务推理和适应未见过的任务中,优于之前的元强化学习方法。

多智能体离线RL。扩散模型在多智能体RL中用于建模智能体差异行为,减少近似误差。MADiff和DOM2分别使用注意力扩散模型和整合到策略类中的扩散模型来学习复杂的多智能体交互和推广到变化环境。

5.2 模仿学习

模仿学习通过提取专家演示中的知识,在环境中再现专家行为。扩散模型已被证明能有效表示策略,提高采样行为质量。Pearce等人将其应用于顺序环境,Chi等人则应用于机器人动作空间。扩散模型擅长预测闭环动作序列,保证时间一致性。受益于其强大的生成能力,扩散模型有望获取处理多个操纵任务的多样化技能。扩散模型已应用于目标条件RL,解决目标导向导航和目标无关探索问题。

5.3 轨迹生成

轨迹生成是根据一组约束条件推导动态可行路径的过程,特别是关于人类姿势和机器人交互的决策场景。许多研究显示,条件扩散模型在运动生成方面比使用GAN或Transformer的方法更有效。该框架利用去噪扩散和条件上下文实现多样化和精细的运动生成。近期研究使用扩散模型合成未来帧并提取控制动作,使得仅基于RGB视频训练策略并应用至多种机器人任务成为可能。UniSim利用扩散模型整合多种数据集,构建通用模拟器来训练高级视觉语言规划器和低级RL策略,展示强大的仿真能力。

5.4 数据增强

扩散模型已被用于强化学习数据增强,可精确模拟原始数据分布,生成不同数据点扩展原始分布,保持动态准确性。近期研究使用文本引导的扩散模型增强机器人控制观察,保持相同动作。SynthER和MTDiff-s通过扩散模型生成训练任务完整转换,为在线和离线强化学习带来显著政策改进。

6 RL中扩散模型的挑战

本节讨论了强化学习中扩散模型的三个限制,以及与基于Transformer的自回归方法的比较。

在线强化学习中的应用。扩散模型在线强化学习面临挑战,因为数据分布随时间变化。当前策略采样的数据分布可能会随着时间变化,需要大量新数据来适应。在线强化学习需要平衡适应性需求和大量数据需求。通过更轻量级的扩散模型有望解决这一困境,该模型可以在数据分布发生变化时保持一致性。

迭代采样成本。扩散模型采样成本高,尽管有DDIM和DPM-Solver等加速技术,但在在线交互中仍受限。陈等人提出的一致性模型,通过一两个扩散步骤即可实现与50个步骤的DDPM或DDIM相当的性能。

随机抽样的方差。传统的强化学习算法使用高斯表示的连续控制策略,但当使用扩散模型作为策略类时,确定性策略是不可能的。扩散采样的随机性来自初始噪声和每步随机去噪,高方差策略可能对精度或安全要求较高的环境产生负面影响。现有的工作很少讨论这一限制,并期望减少方差的采样方法。

与基于Transformer的方法的比较。扩散模型和Transformer是两种不同的强化学习方法。扩散模型利用分布拟合能力,擅长多模态、多样化和准确的输出,而Transformer擅长长时域序列建模和时间相关性理解。扩散模型更适合学习复杂的多模态任务,而Transformer更倾向于时间或代理维度的相关序列建模。

7 展望

这综述概述了扩散模型在RL领域的应用,将其分为规划器、政策、数据合成器等角色。与传统方法相比,扩散模型解决了RL中的表现力、数据稀缺、复合误差和多任务泛化问题。尽管有局限性,但扩散模型在RL中仍有许多值得探索的研究方向,如结合变换器、检索增强生成、整合安全约束和组合不同技能。

组合变换器。现有工作使用UNet进行轨迹建模,但UNet不适合轨迹建模。考虑轨迹生成和预测的最新进展,用变换器代替UNet可能更有效地学习轨迹中的顺序关系,输出更一致的结果,有助于具有强时间相关性的任务的长期规划和执行。

检索增强生成。检索技术在推荐系统和大型语言模型等领域广泛应用,以提高模型处理长尾分布式数据集的能力。一些研究利用检索数据促进文本到图像和文本到动作扩散生成,以更好地覆盖罕见条件信号。在在线交互过程中,通过检索相关状态作为模型输入,扩散决策模型的性能可以得到改善。此外,如果检索数据集不断更新,扩散模型有可能在不进行重新训练的情况下生成新行为。

整合安全约束。将RL模型用于实际应用需要遵守安全约束,几种安全的RL方法将受约束的RL问题转化为无约束的等价问题,然后由通用的RL算法求解。最近的研究将决策转换器的适用性扩展到安全约束设置的环境中,从而使单个模型能够通过调整输入成本来适应不同的阈值。扩散模型在安全RL领域具有巨大的部署潜力,基于扩散的规划器可以结合不同的移动技能来产生新的行为,分类器引导的采样可以为生成的样本添加新的条件。

组合不同的技能。扩散模型在原始状态和动作空间上部署生成能力,基于技能的强化学习将其分解为更小、更易于管理的子技能。扩散模型擅长对多模态分布进行建模,适合处理子技能。结合分类器指导或无分类器指导,扩散模型可以生成适当技能完成任务。离线RL实验表明,扩散模型可以在技能之间共享知识,并将其组合起来,具有通过组合不同技能进行零样本适应或连续RL的潜力。

参考资料:《 Diffusion Models for Reinforcement Learning: A Survey》

关注👇公众号,后台回复【DM4RL】可下载原论文

更多精彩内容请点击:AI领域文章精选!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档