来源:ICCV 2023 作者:Bin Cheng, Zuhao Liu 等 论文题目:General Image-to-Image Translation with One-Shot Image Guidance 论文链接:https://arxiv.org/abs/2307.14352 内容整理:汪奕文 最近,在大量文本-图像对上预训练的大规模文本-图像模型在图像合成方面表现出优异的性能。然而,图像相比纯文本可以提供更直观的视觉概念。本文提出一种新的框架视觉概念转换器(VCT),能够保留源图像中的内容,并在单个参考图像的指导下转换视觉概念。所提出的VCT包含一个内容-概念反演(CCI)过程来提取内容和概念,以及一个内容-概念融合(CCF)过程来收集提取的信息。只需给定一幅参考图像,所提出的VCT就可以完成通用的图像到图像转换任务,并取得优异的结果。
图像到图像转化(I2I)任务旨在学习一个条件生成函数,将图像从源域转换到目标域,同时保留源域内容并迁移目标概念。
传统上,基于生成对抗网络(GAN)或流的 I2I 方法通常存在泛化性差的问题。在一个源-目标数据集上训练的模型无法适应另一个数据集,因此在通用的 I2I 场景下无法工作。
许多基于扩散模型的工作试图从图像中提取所需的视觉信息,如 TI,DreamBooth 和 Imagic。然而,这些方法不能直接用于 I2I 任务,因为它们无法保留源图像中的内容。
为了保留源图像的内容,最近提出的 DDIM 反演方法沿着反向扩散过程的逆向方向寻找确定性噪声,并且将 DDIM 反演进一步应用到文本引导的图像编辑中。然而,这些方法以文本为条件,无法理解参考图像中的视觉概念。
本文提出了一种新的视觉概念转换器(visual concept translator, VCT)框架,能够在参考图像的指导下完成通用的视觉概念转换任务。VCT 通过内容-概念反演(CCI)和内容-概念融合(CCF)两个过程来解决图像引导的 I2I 问题。CCI 过程通过枢轴调整反演和多概念反演从源图像和参考图像中提取内容和概念;CCF 过程采用双分支去噪架构收集提取的信息以生成目标图像。只需给定一幅参考图像,所提出的 VCT 就可以完成通用的图像-图像转换任务,本文的贡献如下
隐式扩散模型
隐式扩散模型(LDM)被用作本文模型的 backbone。与传统的扩散模型直接在图像空间中进行去噪操作不同,LDM 通过自编码器在隐空间中进行去噪操作。
输入图像
被自动编码器编码到隐空间中
。然后,通过训练神经网络
来预测添加的噪声,从而实现去噪过程,目标函数如下:
其中,
是由文本条件生成的文本嵌入。
是通过在采样数据
上添加噪声产生的。
文本嵌入
由
获得,其中
是 BERT 分词器,
是文本 prompt。分词器
将输入字符串中的每个单词或子单词转化为 token。然后将每个 token 链接到一个唯一的嵌入向量,该向量可以通过基于索引的查找进行检索。
Textual inversion
Textual inversion(TI) 是一种通过学习文本嵌入空间中的
来表示伪词
,从而在预训练的以文本为条件的生成模型中引入新概念的新技术。对于少量图像集合
, TI 通过优化以下函数来实现:
因此,用新学习的嵌入向量
替换与新概念关联的嵌入向量,即将新概念注入到词汇表中,促使学习的嵌入
在粗略的水平上捕捉新概念特有的精细视觉细节。
DDIM inversion
反演需要找到噪声图
,该图在经过采样后重构输入的隐空特征图
。有人提出了一种简单的 DDIM 采样反演技术,其基础是假设 ODE 过程在步数较少的情况下可以被反转:
其中,
是步骤
的含噪隐空间表示,
是 DDIM 中定义的噪声因子,
预测了最终的去噪隐空间表示
。
Classifier-free guidance
扩散模型可能会忽略条件输入,产生与输入不相关的结果。解决这个问题的一种方法是无分类器指导。在去噪阶段,当引导尺度
时,无分类器引导预测定义为:
对于给定的源图像
和参考图像
, VCT 的目标是生成一个符合
的新图像
,同时保留
的结构和语义布局。
下图是 VCT 的总体框架,包括内容-概念反演(CCI)过程和内容-概念融合(CCF)过程。CCI 过程将源图像
和参考图像
中的内容和概念提取为可学习的嵌入。CCF 过程采用了一个双分支去噪架构,包括一个主分支
和一个内容匹配分支
。这两个分支都是从相同的由
反演得到的初始噪声开始的。内容匹配分支通过注意力控制机制重构源图像并提取注意力图来指导主过程,主分支收集所有信息得到目标图像
。
图1
域融合
对于两个不同的文本嵌入
和
,他们分别产生两种不同的噪声预测
和
。
根据分类器引导和无分类器引导的结论,每个扩散步骤中的噪声预测可以看作是为分数估计函数。
独立的文本嵌入
和
可以在
空间中融合,生成包含源图像和参考图像某些属性的图像。
其中,
是平衡两项的超参数权重。
图2
双分支去噪网络
初始噪声
由 DDIM inversion 公式对
进行反演得到,式中
。本方法采用了双分支去噪架构,分别为主分支
和内容匹配分支
。内容匹配分支
是一个完全重构源图像
的去噪过程,主分支
是最终完成 I2I 任务的去噪过程。
在每个去噪步骤
,内容匹配分支
旨在提取文本嵌入
和注意力图
,它们将用于主分支并行的去噪步骤。通过
,我们获得了源图像的嵌入和结构信息。
为了更好地注入源图像
的信息,除了
空间融合中使用的参考嵌入外,双分支扩散过程具有几乎相同的计算 pipeline。通过以下方法在内容匹配分支中进行
空间融合:
其中,两分支的权重
必须保持一致。
图3
注意力控制
是内容匹配分支时间步
的注意力图,
是主分支的注意力图。则注意力控制被定义为
其中,
是决定从哪个步骤开始替换注意力图的时间参数。
Pivotal turning inversion
枢轴调整反演用于生成指导 CCF 过程的内容嵌入。在 DDIM inversion 过程中,每个步骤都包含一个小的误差。对于无条件扩散模型,累积误差可以忽略不计。然而,使用Stable Diffusion进行编辑需要用到指导尺度为
的无分类器指导,则会放大累计误差。
Null-text inversion 修改了每个时间步骤
中用于无分类器指导的无条件嵌入,以匹配初始的条件 DDIM 反演过程。
在本方法中,以图像作为指导,无法获得源图像
对应的准确文本提示。因此,本文采用了无条件 DDIM 反演,并在每个时间步骤
中优化源图像文本嵌入
,以精确匹配源图像
。优化函数为
其中,
是给定
和
估计的去噪特征图
。
Multi-concept inversion
多概念反演过程,通过生成概念嵌入来表示复杂的视觉概念。我们需要从参考图像
中学习一个参考嵌入
。
为了表示输入图像中的视觉概念,TI 从小样本图像中学习伪词
的嵌入;DreamArtist 改进了 TI,从单张图像中学习到成对的正/负多概念嵌入(
和
),并提出了细节增强的重建约束。本方法采用了与 DreamArtist 相似的策略,但是加入了两个改进:
首先,多概念嵌入有助于从图像中挖掘语义信息。在本文的方法中,负嵌入与源嵌入
冲突。因此,本文仅使用正多概念嵌入来学习参考文本嵌入
。冻结生成扩散模型的参数
,并使用以下目标函数优化
:
其中,
是多概念嵌入,
是
的加噪版本。
其次,本文改进了 DreamArtist 中细节增强机制的重建约束。DreamArtist 在图像空间中应用重构约束,即
。一方面,由于解码器
内部的梯度反向传播,在图像空间中的优化需要消耗巨大的资源。另一方面,估计
和
之间存在差距,特别是在去噪过程的早期阶段。因此,本方法在隐空间中实现重构约束。重建损失可以表示为:
其中,
为根据给定的
和
估计的去噪特征图
。
通用 I2I 任务
图4
对于像 SD 和 Prompt2prompt 的文本-图像生成模型,使用BLIP 图像描述模型提取文本描述作为输入。基于 GAN 的方法 TuiGAN 和PhotoWCT 在只有一张图像作为输入时,生成质量很差,只转换了参考图像的部分纹理特征。因此,基于 GAN 的方法在 one-shot 场景下不能取得令人满意的效果。基于扩散模型的方法 SD 和 TI 可以很好地保留参考图像中的概念,但不能提取源图像中的内容信息。Prompt2prompt 可以很好地保留图像内容,但无法与参考图像中的概念融合。
图5
所提出的 VCT 通过克服上述方法的所有缺点,可以在保持学习到的概念和内容的情况下生成最佳结果。此外,为了评估所提出的 VCT 的图像转换能力,保持内容图像不变,改变不同的参考图像。不同参考图像的生成结果显示出令人满意的内容保持和概念翻译能力。
图6
图像风格转换
图7
图8
除了通用的 I2I 任务,VCT 在图像风格迁移任务中也取得了优异的结果。基于 GAN 的方法生成的结果有时存在较大缺陷。基于扩散模型的方法 SD 和 TI 同样存在内容无法完全保留的问题。Prompt2prompt 虽然保留了源图像的内容,但不能很好地转换参考图像中的概念。
图9
对 VCT 方法的每个组成部分进行了消融实验,并展示了其有效性,包括多概念反演(MCI)、枢轴调整反演(PTI)和注意力控制(AC)。删除 MCI 后,通过使用单词 “dog” 生成参考嵌入
,生成的结果与参考图像中的特定目标不一致。在不使用 PTI 时,由于 DDIM 采样轨迹不一致,内容匹配分支无法重建源内容图像。去除AC后,则无法保留内容图像的结构。总的来说,通过使用所有提出的组件可以获得最佳的生成输出,更好地保留了内容图像的结构和语义布局,同时符合参考图像。