前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >扩散模型概述:应用、引导生成、统计率和优化

扩散模型概述:应用、引导生成、统计率和优化

作者头像
CreateAMind
发布2024-07-05 11:13:35
发布2024-07-05 11:13:35
4910
举报
文章被收录于专栏:CreateAMind

An overview of diffusion models: Applications, guided generation, statistical rates and optimization 扩散模型概述:应用、引导生成、统计速率和优化

https://arxiv.org/pdf/2404.07771

摘要

扩散模型是一种强大且通用的生成人工智能技术,在计算机视觉、音频、强化学习和计算生物学领域取得了巨大成功。 在这些应用中,扩散模型提供灵活的高维数据建模,并充当采样器,用于在任务所需属性的主动指导下生成新样本。 尽管取得了显着的实证成功,但扩散模型的理论非常有限,可能会减慢进一步利用和改进扩散模型的原则性方法创新。 在本文中,我们回顾了扩散模型的新兴应用,了解它们在各种控制下的样本生成。接下来,我们概述现有的扩散模型理论,涵盖其统计特性和采样能力。 我们采用渐进式的例程,从无条件扩散模型开始,然后连接到有条件的对应模型。 此外,我们回顾了通过条件扩散模型进行高维结构化优化的新途径,其中将搜索解决方案重新表述为条件采样问题并通过扩散模型来解决。 最后,我们讨论扩散模型的未来方向。本文的目的是为激发扩散模型的前瞻性理论和方法提供全面的理论展示。

1 引言

人工智能(AI)领域因生成模型而发生了革命性的变化,尤其是大型语言模型和扩散模型。它们被公认为基础模型[1],经过大量数据的培训,为机器学习研究和应用开辟了充满活力的可能性。虽然大型语言模型专注于基于上下文生成连贯的文本,但扩散模型擅长建模复杂数据分布并生成多样化样本,这两者在各个领域都得到了广泛的应用。

受到热力学建模[2]的启发,扩散模型近年来以突破性的性能出现,超越了先前的最先进技术,如生成对抗网络(GANs)[3, 4]和变分自编码器(VAEs)[5, 6]。扩散模型在计算机视觉和音频生成任务[7–22]中被广泛采用,并进一步用于文本生成[23–25]、序列数据建模[26–29]、强化学习和控制[30–35],以及生命科学[36–54]。有关更全面的应用程序介绍,我们推荐读者阅读综述论文[22, 55–59]。

扩散模型的卓越性能离不开众多方法论创新,这些创新显著扩大了扩散模型的范围并增强了其功能,使其能够进行高保真度生成、高效采样以及灵活控制样本生成。例如,[60–63]将扩散模型扩展到离散数据生成,而传统的扩散模型针对的是连续数据。与此同时,有一条活跃的研究线旨在加速扩散模型的样本生成速度[64–74]。最后但同样重要的是,最近的研究热潮集中在微调扩散模型以生成具有所需属性的样本,例如生成具有特殊美学品质的图像[75–83]。这些特定于任务的属性通常被编码为扩散模型的指导,包括调节和控制信号以引导样本生成。值得注意的是,指导允许在广泛的应用中创建多样化和相关的内容,这突出了扩散模型的多功能性和适应性。我们将具有指导的扩散模型称为条件扩散模型。

尽管实证进步的体量迅速增长,但扩散模型的理论却远远落后。一些最近的理论研究将扩散模型视为一种无监督的分布学习器和采样器,因此建立了它们的采样收敛保证[84–89]和统计分布学习保证[90–92]。这些结果为理解扩散模型在建模复杂数据方面的效率和准确性提供了宝贵的理论见解,重点是无条件扩散模型在分布估计中的中心焦点。这在理论和实践之间为条件扩散模型留下了差距。具体来说,仍然缺乏支持和激励指导设计原则方法以及将扩散模型适应于特定任务需求的理论基础。

本文作为对扩散模型的现代曝光,旨在激发对它们的复杂和前瞻性研究。我们主要关注扩散模型的以下基本理论问题:

• 扩散模型能否准确高效地学习数据分布?如果可以,样本复杂性是什么,特别是对于结构化数据?

• 条件扩散模型能否生成与指导一致的分布?如果可以,我们如何正确设计指导,样本复杂性又是什么?

为了进行系统研究,我们将首先回顾扩散模型的工作原理及其新兴应用。然后,我们将提供与上述问题相关的现有理论基础的概述。我们的最终目标是展示并利用扩散模型的力量,将其连接到应用数学、统计学、计算生物学和运营研究等广泛的跨学科领域。

论文结构

本文的其余部分组织如下。在第2节中,我们使用随机微分方程提供了扩散模型的连续时间描述。连续时间视角的优势在于其清晰和系统化的公式化,以及将离散化方案无缝应用于复制实际实现的能力。

在第3节中,我们回顾了扩散模型的新兴应用,特别是在各种控制生成任务中的应用,目的是阐明扩散模型试图捕获的条件分布。然后,在第3.4节中,我们通过评估在控制下由奖励函数产生的样本的质量,将条件生成与黑盒优化联系起来。

在第4节中,我们深入研究理论基础并回顾了扩散模型的理论。具体来说,在第4.1节中,我们讨论了如何学习分数函数。第4.2节提供了近似理论,以理解学习分数的适当神经网络架构,以及估计分数函数的统计样本复杂性。第4.3节随后讨论了使用扩散模型进行分布估计的统计样本复杂性和采样理论,通过将扩散模型视为采样器。

在第5节中,我们专注于条件扩散模型,继续进行第4节中的类似研究。我们在第5.1节中介绍了条件分数函数的学习方法,将它们通过所谓的“指导”项与无条件分数连接起来。这也激发了对条件扩散模型进行微调的方法。第5.2节随后总结了无条件分数近似、估计和分布学习理论。第5.3节重新审视了条件分数函数中的指导,并为指导的影响建立了理论见解。

在第6节中,我们回顾了使用条件扩散模型的数据驱动黑盒优化的理论和方法。我们强调扩散模型生成了对优化目标函数的高保真解,保留了数据潜在结构,并且解的质量与最优的非策略性强盗一致。这为通过扩散模型在高维复杂和结构化空间中的优化开辟了新的可能性。

最后,在第7节中,我们讨论了未来的研究方向以及扩散模型与广泛研究领域的联系。

2 扩散模型初步

粗略地说,扩散模型由前向过程和后向过程组成。在前向过程中,来自数据分布的干净样本逐步被高斯随机噪声污染,在无限时间极限下,数据分布被转化为纯噪声。在后向过程中,训练一个去噪神经网络逐步去除数据中添加的噪声分布,并恢复新的干净数据分布。前向和后向过程如图1所示。

为了完全解读扩散模型的工作原理,我们以连续时间极限描述前向和后向过程,并回顾如何实现后向过程。接下来,我们将引入指导,以实现使用条件扩散模型进行控制样本生成中的条件化。

2.1 前向和后向过程

扩散模型中的前向过程逐步向原始数据添加噪声。在这里,我们考虑由以下随机微分方程(SDE)描述的Ornstein-Uhlenbeck过程,

扩散模型通过模拟(3)的离散化来生成数据,适当的步长是常见的做法。

通常的做法是设置步长为O(1/1000)的顺序,以便将反向随机微分方程(SDE)(3)离散化成数百个步骤[9, 64, 94]。

值得一提的是,模拟数千步的反向过程以生成一个样本是耗时的。加速扩散模型的采样速度是一个活跃的研究方向[64-74]。一些值得注意的方法包括使用步长采样以减少反向步骤[64, 68, 94],用常微分方程(ODE)或DDIM(去噪扩散隐式模型)替换反向SDE(3)[65, 70, 71],使用预训练的VAE提取低维数据表示,然后实施扩散过程——称为潜在扩散[66],训练蒸馏和一致性模型[67, 69, 97],以及修正流[73]。这些方法在高度微调的扩散模型中得到了广泛的应用,如Sora和Stable Diffusion[98, 99]。

2.2 条件扩散模型

条件扩散模型生成的样本类似于未条件化的样本,而主要的区别是增加了条件信息。我们将条件信息表示为y。然后,条件扩散模型的目标是从条件数据分布P(·|y)中生成样本。条件正向过程再次是一个Ornstein-Ulhenbeck过程。

请注意,初始分布现在是条件分布P0(·|y),与未条件化的正向过程(1)不同。噪声污染仅对x执行,而y保持固定。我们使用上标y来强调过程对y的依赖。同样,对于样本生成,反向过程在(4)中反转时间:

3 扩散模型的新兴应用

通过广泛的开发[7, 9, 10, 94],现代扩散模型已经取得了惊人的成功,并被应用于各种应用中(例如,参见综述[55])。我们特别强调扩散模型在以下领域的广泛应用,特别是强调条件扩散模型用于控制样本生成。

3.1 视觉和音频生成

扩散模型在图像和音频生成任务中实现了最先进的性能[7-22],并且是图像和音频合成系统的基本构建块,例如DALL-E[66]、稳定扩散[101]和Diffwave[11]。

扩散模型的性能被评估为高保真样本生成,并允许多功能的指导来控制生成。在指导下生成的最简单的例子是生成某些类别的图像,如猫或狗。这类分类信息被视为条件信号并输入到条件扩散模型中。更详细地说,我们使用由样本对

组成的标记数据集来训练条件扩散模型,其中yi是图像xi的标签。训练是为了使用数据集估计条件得分函数,建模x和y之间的对应关系。通过这种方式,条件扩散模型正在学习条件分布P(x = 图像 | y = 给定标签),并允许从分布中采样。

在文本到图像合成系统中,条件信息是输入的文本提示,可以是包含对象的句子或更抽象的要求,例如审美质量。为了生成与提示一致的图像,条件扩散模型是使用包含图像和文本摘要对(xi, yi)的大量注释数据集进行训练的。文本yi将被转换为词嵌入,并作为条件扩散模型的输入。

类似于在某些类别中生成图像,文本到图像合成的条件扩散模型学习条件分布P(x = 图像 | y = 文本提示)并允许从其中采样。在更复杂的合成系统中,实施了一些微调步骤,以进一步实现抽象提示条件并提高生成图像的质量。例如,[78]将离散化的反向过程(2)重新表述为有限视界马尔可夫决策过程(MDP)。状态空间表示图像,条件得分函数被视为策略,定义了一个奖励函数来衡量图像与其期望文本提示的一致性。因此,生成与提示一致的图像相当于通过找到最优策略来优化奖励。[78]提出了一种基于策略梯度的方法来微调预训练的扩散模型。在图2中,我们展示了使用[78]中的方法对条件扩散模型进行微调的逐步改进,从左到右。

条件扩散模型也是图像编辑和恢复[102-109]以及音频增强[110-113]的强大工具;另见综述[22, 56]及其中引用的文献。为了展示这个概念,我们以图像修复任务为例。修复的目标是预测图像中缺失的像素。我们把图像的已知区域表示为y,原始完整图像表示为x。然后,修复归结为从条件分布P(x = 完整图像 | y = 图像的已知区域)中采样x。在所有这些应用中,条件扩散模型被证明在建模条件分布[10, 107]方面具有高度的表现力和有效性。

3.2 控制和强化学习

除了主要的计算机视觉和音频任务之外,扩散模型在强化学习(RL)和控制问题中也得到了积极部署,并表现出吸引力的性能。例如,[30-33,35]利用条件扩散模型在高度复杂的任务中参数化控制/RL策略,例如机器人控制和人类行为模仿。扩散模型与RL之间的联系的扩展综述可以在[34]中找到。在RL/控制问题中,策略是给定底层动态系统状态的动作空间的条件概率分布。因此,当使用扩散模型来参数化策略时,目标是学习一个分布P(a = 动作 | y = 系统状态)。[30, 32]专注于模仿学习场景,目标是模仿专家的行为。数据集包含由(yi, ai)对表示的专家演示。这里yi是系统的状态,ai是专家选择的动作。

类似于文本到图像合成,我们使用数据集训练条件得分网络以捕获状态和动作之间的依赖性。在推理过程中,给定一个新的系统状态,我们使用学习到的条件扩散模型生成合理的动作。Diffusion-QL[114]进一步为条件扩散模型的训练添加了正则化,并尝试基于预先收集的数据集学习最优动作。

扩散模型还通过将顺序决策视为生成序列建模,在控制和RL问题中体现了算法设计的一个新的领域。在RL中典型的奖励最大化规划任务中,目标是找到一个实现大累积奖励的最优策略。传统方法依赖于迭代求解Bellman最优性以获得相应的策略。然而,生成序列建模直接产生大奖励的状态-动作轨迹,避免了明确求解Bellman最优性。

换句话说,生成序列建模直接从条件分布P(τ = 状态-动作轨迹 | τ获得大奖励)中采样。早期的成功是通过变换器生成模型[115,116]证明的。后来,条件扩散模型被部署,并表现出最先进的性能。即,Diffuser[117]通过条件扩散模型生成以高奖励为指导的状态-动作轨迹。Decision Diffuser[118]展示了条件轨迹生成,以奖励、约束或技能为指导,并增强了Diffuser的性能。例如,给定一个预先收集的数据集,包含(τi, yi),其中τi是状态-动作轨迹,yi是τi的累积奖励。我们使用条件扩散模型来模拟条件分布P(τ |y),通过估计条件得分函数。训练后,我们指定一个适当的目标奖励值,并部署条件扩散模型来生成样本轨迹。然后可以通过逆动力学模型[119]从生成的轨迹中提取策略。参见图3中决策扩散器的工作流程。AdaptDiffuser[120]进一步引入了一个鉴别器来微调条件扩散模型,允许自我演化和适应分布外任务。

3.3 生命科学应用

在生命科学应用中,条件扩散模型正在产生越来越深远的影响[36-54]。

另见[57]关于扩散模型在生物信息学应用的综述。这些结果涵盖了多种任务,包括单细胞图像分析、蛋白质设计和生成、药物设计、小分子生成等。其性能超越了许多使用自回归、VAE或GAN型深度生成模型的前身[121-124]。

为了展示条件扩散模型的使用,我们以蛋白质设计为例。

蛋白质设计可以被看作是寻找一定长度的序列w的问题,其中序列的每个坐标代表蛋白质的结构信息。蛋白质只有在能在活细胞中表达时才有用。一个广泛采用的有用性度量是蛋白质序列是自然序列的可能性[50]。此外,结合亲和力和聚集倾向也是蛋白质结构的重要属性。结合有用性度量,所有这些属性可以由向量值函数f(w)概括。从这个意义上讲,条件扩散模型实际上生成了遵循条件分布P(w | f(w) ∈ E)的蛋白质序列w,其中E是描述合理蛋白质结构的集合。条件扩散模型的训练用于蛋白质生成,类似于文本到图像的扩散模型,基于包含具有测量属性的多样化蛋白质结构的训练数据集。在推理阶段,我们可以先从E中采样一个配置,并在该配置的条件下,生成新的蛋白质。

3.4 黑箱优化

在控制、强化学习(RL)和生命科学应用中,各种指导可以被概括为一个抽象的奖励函数V(·)。然后目标是从条件分布中生成新样本,旨在优化奖励。因此,条件扩散模型充当一个优化器,生成最优解。

我们重新审视强化学习中的离线奖励最大化规划的例子。回想一下,我们的数据集包括状态-动作轨迹τi和相关的累积奖励yi = V(τi) + ϵi,其中ϵi是独立的观测噪声。奖励最大化规划本质上是寻找黑箱优化问题argmaxτ V(τ)的解决方案。在这种情况下,我们禁止与目标函数V交互,超出给定的数据集[125]。早期的工作使用GANs进行最优解生成[126],但受到训练不稳定和模式崩溃问题的困扰。最近,[127]实证地展示了使用条件扩散模型生成高质量解决方案的优越性能。这个想法是将黑箱优化问题转化为条件抽样问题。具体来说,给定一个适当的目标值a,条件扩散模型从条件分布P(τ | V(τ) = a)生成解决方案。微妙之处在于如何正确选择目标值a以确保生成的解决方案的高质量。粗略地说,我们倾向于选择一个较大的a,以便生成的解决方案获得较大的奖励。然而,如果我们选择的a与给定的数据集相比太大,就需要进行显著的外推以生成相应的解决方案,导致潜在的质量下降。

因此,对a的正确选择在很大程度上取决于收集的数据集的覆盖范围。[128]提供了如何选择a以确保生成良好解决方案的理论指导,我们将在第6节中介绍。实证上,[127]提出了几种在条件扩散模型训练期间鼓励大奖励解决方案的方法,例如样本重新加权——给具有大奖励的样本分配大权重。

4 无条件扩散模型的理论进展

本节回顾了扩散模型理论理解的最新进展。我们从第2节回顾得知,得分函数是实现扩散模型的关键。从理论角度来看,扩散模型的性能与得分函数能否被准确学习密切相关。为了系统处理,我们首先介绍学习得分的方法,然后深入探讨它们理论的洞见。具体来说,我们讨论了如何正确选择神经网络来学习得分函数,基于神经网络的通用和自适应近似能力。更重要的是,我们展示了由数据分布假设引起的得分函数中的结构属性,例如,低维支持和图模型。然后我们提供了使用选定的神经网络估计得分的统计样本复杂性。我们特别感兴趣的是理解得分估计如何在高维设置中规避维度的诅咒问题。最后,我们研究了估计数据分布的统计速率。

4.1 学习得分函数

我们考虑使用神经网络学习得分函数

的目标。一个简单的目标函数是加权的二次损失:

其中w(t)是一个权重函数,S 是一个概念类(深度神经网络)。然而,这样的目标函数无法使用样本来计算,因为得分函数

是未知的。

如开创性的工作 [129] 和 [130] 所示,我们不是最小化积分(6),而是可以最小化一个等价的目标函数,

其中

是在潜在变量 z 上应用前向扩散过程 (1) 的边际密度函数。可以看到,项 (T) 与矩阵 A 张成的子空间正交。更重要的是,当 t 接近 0 时,只要

,(T) 的幅度就会增长到无穷大。这是因为 (T) 强制正交分量消失,以便在生成的样本中再现低维子空间结构。这种爆炸问题出现在所有几何数据中 [133]。因此,引入了一个早停时间

,实际得分估计损失写为:

备注 1(网络类别 S)。网络类别 S 的一个常见选择是 U-Net [134],如图 4 所示。网络架构利用卷积层和快捷连接。在网络中,输入首先被压缩成低维表示,然后逐渐恢复到原始维度。这种编码器-解码器类型的结构旨在提取数据的内在结构,从而实现高效学习。最近,使用基于变换器的得分网络已经展示了出色的性能 [98, 135, 136],在捕捉数据中的空间-时间依赖性方面表现卓越。

4.2.1 得分近似保证

在推导近似保证时,[90, 91]利用复杂的输入截断来处理无界域。近似误差反过来以

范数度量,而不是常用的 L∞ 范数。为了实现

近似误差,网络大小以

的顺序扩展,其中

依赖于数据维度。我们强调,当数据中存在低维子空间结构时,

仅依赖于子空间维度。

4.2.2 得分估计的样本复杂性

我们转向理解通过优化(9)学习得分估计器需要多少样本。学习到的估计器应该具有泛化能力,即其与真实得分的偏差很小。这不仅需要一个好的得分网络类别 S,还需要 S 内部的可学习性,这由 S 的某些复杂性度量来表征。

关于得分估计的优化保证 在算法方面,我们知道 [147] 研究了高斯混合模型中的得分估计。他们提供了使用梯度下降最小化得分估计损失(9)的收敛性分析。算法行为可以在两个阶段中表征,其中在大噪声阶段,即(9)中的时间 t 大,梯度下降类似于幂迭代。在小噪声阶段,即 t 小,梯度下降类似于 EM 算法。此外,[148] 研究了使用两层神经网络进行得分估计的优化保证。

4.2.3 图模型中的得分估计

除了考虑连续空间中的数据分布,如欧几里得空间和线性子空间,[92] 还研究了图模型中的得分近似和估计。图模型,如马尔可夫随机场和受限玻尔兹曼机,在文献中已被广泛用于建模图像分布[149, 150],但它们与连续变量上的分布有根本的不同。[92] 提出了一种新方法来控制高维中得分估计的样本复杂性。特别是,作者将扩散模型中的神经网络视为一种去噪算法,使得有效的得分近似成为可能。

4.3 抽样和分布估计我们扩散模型的最终目标是学习数据分布并提供轻松生成新样本的途径。本节首先通过后向过程(3)回顾扩散模型的抽样理论,基本假设是对估计得分函数的准确性。4.3.1 抽样理论

通过扩散模型抽样的计算效率 从某些高维分布中抽样在计算上可能具有挑战性。例如,[167] 展示了使用任何稳定算法从低温 Sherrington-Kirkpatrick 模型中抽样的难度。一个有趣的研究线索将是理解通过扩散模型抽样的计算复杂性及其与通过 Langevin 动力学抽样的复杂性的联系。

使用启发式物理方法,[168] 调查了在统计物理中广泛研究的无序系统中,通过 Langevin 动力学和扩散模型在高维分布中抽样的计算复杂性之间的关系。他们利用计算得分函数的难度作为通过扩散模型抽样难度的代理。他们生成了这些高维模型中抽样计算复杂性的相图,并确定了扩散模型无法高效抽样,而 Langevin 动力学可以的参数区域;反之,他们也确定了 Langevin 动力学效率低下,但扩散模型表现良好的区域。

4.3.2 分布估计的样本复杂性 扩散模型的分布估计理论在[169]和[170]中从渐近统计学的角度进行了探索。这些结果没有提供明确的样本复杂性界限。鉴于前述的抽样理论和得分估计理论,我们可以对扩散模型进行端到端分析。以下定理总结了[90]和[91]中扩散模型现有的样本复杂性界限。

从(10)中,我们得出结论,如果密度函数具有更高的平滑度 s,分布估计将更加高效。此外,(10)与欧几里得空间中分布估计的最小最大最优速率相匹配,表明扩散模型是强大且高效的分布估计器。(11)中的结果进一步揭示了扩散模型的自适应性,因为收敛速率仅依赖于子空间维度 d,这可能远小于 D。这个结果为扩散模型为何在实践中表现出令人惊讶的性能提供了宝贵的见解,因为现实世界的高维数据通常具有丰富的低维几何结构,而扩散模型在捕捉这些结构以实现高效学习方面是高效的。

4.4 替代公式:随机局部化

随机局部化是一种用于研究等周不等式的测度值随机过程[163,171,172]。作为一种数学技术,随机局部化已成功用于证明 Kannan-Lovász-Simonovits (KLS) 猜想的版本[173, 174]。该过程后来在[161, 167, 175]中被推广为具有可证明抽样误差界限的抽样算法。随机局部化与 DDPM(去噪扩散概率模型)扩散模型之间的联系在[164]中得到展示。

我们引入了最简单的随机局部化过程,按照[164]中的陈述。给定测度

,随机局部化过程是一个随机微分方程,定义为:

在抽样任务中,对于 Pdata 分布作为自旋玻璃模型和尖峰矩阵模型的后验,[161,167,175] 表明后验期望 mt 可以使用变分推断算法在高温区域近似计算,从而实现从这些分布中高效抽样。

[164] 展示了随机局部化与 DDPM 扩散模型之间的牢固联系:随机局部化过程 {Yt}t≥0 如等式(12)所示,等同于扩散模型(2)的后向 SDE,直到时间和尺度重新参数化。[164] 进一步将随机局部化方案推广到一般随机过程。

5 条件扩散模型的理论进展

尽管条件扩散模型与其无条件对应模型共享许多特性,它们对指导的独特依赖需要新的理解和洞见。因此,关于条件扩散模型的理论结果非常有限。在本节中,我们模仿无条件扩散模型的研究,但额外强调条件扩散模型的不同用途和方法。我们首先介绍条件扩散模型的训练,即估计条件得分函数。有趣的是,条件得分函数可以与无条件得分函数相关联,为训练条件扩散模型提供了微调的视角。接下来,我们提出条件得分估计和分布估计保证。最后一节致力于对高斯混合模型中指导影响的理论见解,我们证实了常见的观察结果,并揭示了新奇的新发现。

5.1 学习条件得分

对于通过(5)进行的条件样本生成,需要估计条件得分函数

。我们稍微滥用了符号,将 s 表示为条件得分网络,S 表示相应的网络类别。通过引入早停时间

,定义了一个概念性的用于条件得分估计的二次损失,如下:

分类器和无分类器引导 实际实施条件得分估计的方法,如分类器引导和无分类器引导方法,基于(14)以减少计算成本或提高性能[100, 177]。我们从分类器引导方法[177]开始,这可以说是第一种允许在扩散模型中进行条件生成的方法,类似于 GAN 或流模型[178,179]。具体来说,当条件信息 y 是离散的,例如图像类别,条件得分

通过贝叶斯规则重写为:

其中

是外部分类器的似然函数。换句话说,分类器引导将无条件得分函数与外部分类器的梯度结合起来。外部分类器是使用前向过程中的扩散数据点进行训练的。因此,分类器引导方法的性能有时受到限制,因为用高度损坏的数据训练外部分类器是困难的。

后来,无分类器引导提出去除外部分类器,绕过由分类器训练引起的限制。无分类器引导的思想是引入一个掩码信号来随机忽略 y,并将条件和无条件得分的学习统一起来。具体来说,设

为掩码信号,其中

表示忽略条件信息 y,而 id 表示保留 y。对应于这两种情况,我们有:

通过引导适应无条件得分 在实际使用案例中,条件样本生成的期望标准或目标可能会随时间变化,这就需要快速适应条件扩散模型。尽管无分类器引导方法已经被采用来从头开始训练条件扩散模型,但它并不适用于适应或微调扩散模型,因为计算开销太大。因此,这为不损害预训练性能的情况下微调扩散模型的理论和方法开辟了新的可能性。

最近,[75,78,79,181,182] 提出了在生成样本的质量由标量值奖励函数衡量时的高效微调方法。为了引导预训练模型生成高奖励样本,[75] 假设奖励函数的可微性,并通过反向传播直接微调扩散模型中的参数。[78, 79] 将扩散模型的样本生成过程表述为有限视界马尔可夫决策过程。得分函数等同于一个策略,允许使用强化学习技术进行微调,如策略梯度方法。

一个更有趣且原则性的微调方法从分类器引导中获得灵感。我们重新审视条件得分函数的贝叶斯规则,

分类器作为指导,以适应预训练的得分。尽管分类器引导需要离散标签 y(尽管可以是多维的),但上一个展示中的分解对基于引导的微调有深远的影响。实际上,[19,117,183] 通过纳入适当标量值函数的梯度,将引导扩展到任意条件。为了演示,[19] 定义了所谓的“通用引导”,形式为 \(\nabla_{x_t} \ell(y, f(b x_0))\),其中 f 是衡量样本质量的函数,\( b x_0 \) 是给定当前后向过程中的点 \( x_t \) 时,预训练扩散模型预期生成的样本,而 \( \ell \) 是损失函数。注意 \( b x_0 \) 与 \( x_t \) 相关,梯度非平凡。作为一个特殊的例子,当 y 是离散标签,f 是分类似然,\( \ell \) 是交叉熵损失时,通用引导重现了分类器引导。

5.2 条件得分和分布估计

条件得分估计和条件分布估计的理论非常有限。据我们所知,[176] 提供了使用(14)进行条件得分估计和分布估计的初步研究。[184] 提供了无分类器引导方法的系统分析,其结果以条件得分函数的近似理论和条件得分估计及分布学习的样本复杂性为亮点。此外,[184] 展示了所发展的统计理论在阐明条件扩散模型在多种应用中的性能方面的效用,包括强化学习中的基于模型的转移核估计、解决逆问题[103, 185–187]以及奖励条件样本生成。

[184] 的核心贡献是条件得分近似理论,其灵感来自[90]中的扩散基近似思想。更详细地说,[184] 将框架大幅扩展到无界数据域和条件分布。作者将条件得分函数重写为

并分别近似

。在技术层面,无界数据域和对 y 的条件化带来了新的挑战。然而,更重要的是,[184] 提升了[90]中对数据分布的技术条件,并在温和的有界 Hölder 范数假设下获得了最优的统计速率。我们注意到[184] 将条件 y 视为独立输入变量,留下了一个开放的方向,即识别条件分布中关于 y 的内在平滑度,以改善维度依赖性。

5.3 关于引导强度的理论见解

我们以关于引导强度影响的最新工作[180]来结束对条件扩散模型的讨论。我们回顾(17)并研究η 对样本生成的影响。相同的强度参数可以引入到分类器引导中,作为

因此,我们将不区分不同的引导方法,并将 η 称为引导的强度。

η 产生的后果最常见的观察结果在图 6 中关于三分量高斯混合模型的说明中得到了最好的展示。这里标签 y 表示高斯分量,x 是一个二维变量。在生成新样本时,我们固定 y 的选择以获得组件内的样本。我们观察到,随着引导强度 η 的增加,生成的条件分布将其概率质量从其他分量更远地移开,大部分质量集中在较小的区域。

[180] 中的结果从理论上表征了在高斯混合模型的背景下,强度对扩散模型的影响。在温和条件下,[180] 证明了纳入强引导不仅可以增强分类信心,还可以减少分布的多样性,导致生成的条件分布的微分熵减少。这些理论与实证观察结果非常吻合。

另一方面,[180] 在高斯混合模型中识别了在离散化后向抽样下大 η 的可能负面影响,如图 7 所示。当强度 η 增大时,存在相位变化。在大 η 下,原始高斯混合模型的中心分量分裂成两个对称的簇,损害了原始数据的模态性。这种负面影响的出现与分量的位置和后向抽样过程中的离散化步长有关。到目前为止,我们还没有意识到在不同任务中调节强度 η 的原则性方法,这可能需要由获得的理论见解来鼓励。

6 扩散模型在优化中的应用

本节介绍了通过扩散模型在高维复杂和结构化空间中进行优化的新途径。我们专注于数据驱动的黑箱优化,目标是生成新解来优化一个未知的目标函数。黑箱优化,也称为机器学习中的基于模型的优化,涵盖了各种应用领域,如强化学习、计算生物学和商业管理[54, 57, 118, 188–192]。

解决数据驱动的黑箱优化与传统优化不同,因为与目标函数的交互超出了预先收集的数据集是禁止的,这减少了顺序搜索最优解的可能性。相反,人们旨在从预先收集的数据集中提取相关信息,并直接推荐解决方案。使问题复杂化的是,解空间通常是高维的,具有丰富的潜在结构。例如,在药物发现中,分子结构需要满足全局和局部规律性才能在生物体内表达。这就对解决数据驱动的黑箱优化提出了一个关键要求:我们需要捕捉数据的潜在结构,以避免提出与原始数据域严重偏离的不切实际的解决方案。

为了应对这些挑战,[176] 将数据驱动的黑箱优化表述为从条件分布中抽样,如图 8 所示。目标函数值是条件分布中的条件,同时分布隐含地捕捉了数据的潜在结构。

[176]中的结果提供了一个肯定的统计答案。对于新样本的奖励水平,[176]定义了

我们注意到奖励函数 V 由两个组成部分构成:1) 支持上的奖励 g 非负,并通过将其投影到矩阵 A 张成的子空间来衡量样本的质量;2) 支持外的惩罚,然而是非正的,并且阻止生成的样本在矩阵 A 张成的子空间之外的空间进行外推。

定理 2 表明,奖励估计误差取决于 Dlabel 中的样本大小,这通常是主导项。支持上的扩散误差和支持外的惩罚取决于 Dunlabel 中的样本大小,并依赖于条件扩散模型对分布估计的统计分析。还有一个微妙之处在于明确量化三个误差项,即分布偏移,这是训练数据分布和目标数据分布之间的不匹配。扩散模型被学习以生成与训练分布类似的样本,然而优化奖励函数会推动模型偏离训练。换句话说,模型需要同时“插值”和“外推”。较高的 a 值为扩散模型提供了更强的指导,而不断增加的分布偏移可能会损害生成样本的质量。

通过详细分析,[176] 将定理 2 实例化为参数和非参数设置。例如,对于线性奖励函数 g,奖励估计误差与最优的离策略强盗次优性 [193, 194] 一致,其中分布偏移被明确计算,维度依赖性是 d 而不是大的环境维度 D。在人类偏好设置中,[176] 考虑了 Bradley-Terry-Luce 选择模型 [195, 196] 并导出了一个类似的具体次优性界限。

7 未来方向

我们讨论了扩散模型的几个未来研究方向,探索了它们与随机控制和分布鲁棒性的联系;我们还介绍了离散扩散模型。

7.1 与随机控制的联系

无论是无条件扩散模型还是条件扩散模型,使用后向过程(2)或(5)生成样本可以被视为随机控制问题[197, 198]。随机控制的目标是设计受控变量的演变,以便最小化某些成本。在扩散模型中,得分函数构成控制,并引导生成样本的质量。在最简单的无条件扩散模型中,我们定义成本为生成分布和数据分布之间的分布差异,例如总变差距离和Wasserstein距离。然后,得分估计本质上就是寻找最优控制以最小化此类成本。

当使用条件扩散模型进行黑箱优化时,成本是奖励函数的负数,条件得分函数是控制。[176]中的理论选择一个合适的目标奖励来设计控制以优化成本。利用这种控制视角,一系列实证结果尝试通过基于各种成本形式设计控制来微调扩散模型[75–83,199]。例如,[75,78,79]考虑可微的实数值奖励,而[77,80]关注成本是人类偏好。在方法论方面,[78]使用强化学习中的策略梯度方法来微调控制(条件得分函数)。[75]通过直接增加成本的梯度来利用分类器引导公式,增强无条件得分函数。

在这方面,可以从随机控制的角度激发原则性的方法和相应的理论[181–183],在各种任务目标下改进和分析扩散模型。

7.2 对抗性鲁棒性和分布鲁棒优化

扩散模型在后向过程中展现出自然的去噪属性,这些属性被用于对抗性净化和促进鲁棒性[200–203]。例如,在鲁棒分类中,提出了一个两步分类程序:首先部署一个训练有素的条件扩散模型,多次给定输入的对抗性样本生成新样本,希望净化输入样本中添加的噪声。然后,生成的样本被送入训练有素的分类器以产生预测标签。由于扩散模型的随机性,可以获得相同输入对抗性样本的多个转换样本。因此,预测标签中的多数投票被指定为对抗性样本的标签。这种方法的动机是使用扩散模型促进鲁棒性的合理化,并且在实证上被证明是有效的[203]。然而,仍然缺少端到端的分析。

我们还期望扩散模型与分布鲁棒优化(DRO)[204–207]之间有密切联系。如定理1所示,扩散模型在目标分布的近邻内生成样本,这可以被视为在DRO中提供分布鲁棒性集合的某种覆盖。从这个意义上说,扩散模型可能模拟不确定性集合中最坏的情况。我们怀疑在相应的交叉领域会出现创新的方法和理论,已经在这方面进行了激励尝试[208]。

7.3 离散扩散模型

离散扩散模型类似于前面的连续对应物,旨在在前向和后向过程中保持有限数据支持[60, 61, 209–214]。而不是使用连续高斯噪声来损坏干净数据,离散扩散求助于连续时间马尔可夫过程来转换干净数据。离散特性与以巨大但有限支持为特征的真实数据具有吸引力的一致性,例如,由单词标记表示的自然语言和分子结构。如[213]报告的,离散扩散在语言任务中实现了可比大小模型的竞争或更好性能。[215]展示了使用离散扩散解决组合问题的可能性。

我们通过一个概率向量

来描述离散分布,该向量属于单纯形。类似于连续扩散的高斯噪声损坏,我们利用一个时间依赖的转移矩阵 Qt 驱动的连续时间马尔可夫过程,即:

上述过程被称为前向离散扩散过程。[61]总结了 Qt 的几种设计选择,包括离散化的高斯、均匀和吸收转移。离散前向过程(18)还断言了一个时间反转:

从理论的角度来看,离散扩散提出了一些有趣的开放问题:如何使用有限样本高效地估计具有潜在稀疏结构和比率范围不良分布的比率。更重要的是,如何智能地设计与数据分布相关的有原则的转移核仍然不清楚。尽管如此,假设可以获得估计的比率,[216]证明了离散扩散模型的第一个抽样理论。

8 结论

在本文中,我们调查了扩散模型如何生成样本、它们的广泛应用,以及它们的现有理论基础。我们采用了扩散模型中前向和后向过程的连续时间描述,并讨论了它们的训练过程,特别是当存在引导以引导样本生成时。我们首先介绍了无条件扩散模型的理论,涵盖了其得分近似、统计估计和抽样理论。在无条件扩散模型的见解基础上,我们随后转向条件扩散模型,重点关注其独特的设计属性和理论。接下来,我们将生成扩散模型与黑箱优化联系起来,为高维优化问题开辟了新的途径。最后,我们讨论了几个趋势性的未来方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档