前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICCV 2023 | 使用一次性图像引导的通用的图像到图像转换

ICCV 2023 | 使用一次性图像引导的通用的图像到图像转换

作者头像
用户1324186
发布2023-09-09 09:10:47
7980
发布2023-09-09 09:10:47
举报
文章被收录于专栏:媒矿工厂

来源:ICCV 2023 作者:Bin Cheng, Zuhao Liu 等 论文题目:General Image-to-Image Translation with One-Shot Image Guidance 论文链接:https://arxiv.org/abs/2307.14352 内容整理:汪奕文 最近,在大量文本-图像对上预训练的大规模文本-图像模型在图像合成方面表现出优异的性能。然而,图像相比纯文本可以提供更直观的视觉概念。本文提出一种新的框架视觉概念转换器(VCT),能够保留源图像中的内容,并在单个参考图像的指导下转换视觉概念。所提出的VCT包含一个内容-概念反演(CCI)过程来提取内容和概念,以及一个内容-概念融合(CCF)过程来收集提取的信息。只需给定一幅参考图像,所提出的VCT就可以完成通用的图像到图像转换任务,并取得优异的结果。

引言

图像到图像转化(I2I)任务旨在学习一个条件生成函数,将图像从源域转换到目标域,同时保留源域内容并迁移目标概念。

传统上,基于生成对抗网络(GAN)或流的 I2I 方法通常存在泛化性差的问题。在一个源-目标数据集上训练的模型无法适应另一个数据集,因此在通用的 I2I 场景下无法工作。

许多基于扩散模型的工作试图从图像中提取所需的视觉信息,如 TI,DreamBooth 和 Imagic。然而,这些方法不能直接用于 I2I 任务,因为它们无法保留源图像中的内容。

为了保留源图像的内容,最近提出的 DDIM 反演方法沿着反向扩散过程的逆向方向寻找确定性噪声,并且将 DDIM 反演进一步应用到文本引导的图像编辑中。然而,这些方法以文本为条件,无法理解参考图像中的视觉概念。

本文提出了一种新的视觉概念转换器(visual concept translator, VCT)框架,能够在参考图像的指导下完成通用的视觉概念转换任务。VCT 通过内容-概念反演(CCI)和内容-概念融合(CCF)两个过程来解决图像引导的 I2I 问题。CCI 过程通过枢轴调整反演和多概念反演从源图像和参考图像中提取内容和概念;CCF 过程采用双分支去噪架构收集提取的信息以生成目标图像。只需给定一幅参考图像,所提出的 VCT 就可以完成通用的图像-图像转换任务,本文的贡献如下

  • 提出了一种新的视觉概念转换(VCT)框架。仅给定单个参考图像,VCT 就能完成通用的 I2I 任务,并具有保持源图像内容和翻译视觉概念的能力。
  • 提出了一种内容-概念反演(content-concept inversion, CCI)方法,通过枢轴调整反演和多概念反演来提取内容和概念。本文还提出了一种内容-概念融合(CCF)过程,以双分支去噪架构来收集提取的信息。
  • 进行了广泛的实验,包括通用 I2I 和风格迁移的任务,以进行模型评估。生成结果表明,VCT 具有较高的优越性和有效性。

理论基础

隐式扩散模型

隐式扩散模型(LDM)被用作本文模型的 backbone。与传统的扩散模型直接在图像空间中进行去噪操作不同,LDM 通过自编码器在隐空间中进行去噪操作。

输入图像

x

被自动编码器编码到隐空间中

z = \mathcal{E}(x), \hat{x} = \mathcal{D}(z)

。然后,通过训练神经网络

\epsilon_{\theta}(z_t,t,v)

来预测添加的噪声,从而实现去噪过程,目标函数如下:

\min_{\theta}E_{z_0, \epsilon \sim \mathcal{N}(0,1),t \sim \text{U}(1,T)}||\epsilon-\epsilon_{\theta}(z_t,t,v)||_2^2 \quad (1)

其中,

v

是由文本条件生成的文本嵌入。

z_t

是通过在采样数据

z_0

上添加噪声产生的。

z_t=\sqrt{\alpha_t}z_0+\sqrt{1-\alpha_t}\epsilon \quad (2)

文本嵌入

v

v =\tau(y)

获得,其中

\tau

是 BERT 分词器,

y

是文本 prompt。分词器

\tau

将输入字符串中的每个单词或子单词转化为 token。然后将每个 token 链接到一个唯一的嵌入向量,该向量可以通过基于索引的查找进行检索。

Textual inversion

Textual inversion(TI) 是一种通过学习文本嵌入空间中的

e^*

来表示伪词

S^*

,从而在预训练的以文本为条件的生成模型中引入新概念的新技术。对于少量图像集合

X

, TI 通过优化以下函数来实现:

\min_{e}E_{x \sim \mathcal{U}_X }E_{z_t \sim q(z_t|x)}||\epsilon-\hat{\epsilon}_{\theta}(z_t,t,\tau(y,S^*))||_2^2 \quad (3)

因此,用新学习的嵌入向量

e^*

替换与新概念关联的嵌入向量,即将新概念注入到词汇表中,促使学习的嵌入

e^*

在粗略的水平上捕捉新概念特有的精细视觉细节。

DDIM inversion

反演需要找到噪声图

z_t

,该图在经过采样后重构输入的隐空特征图

z_0

。有人提出了一种简单的 DDIM 采样反演技术,其基础是假设 ODE 过程在步数较少的情况下可以被反转:

z_{t+1}=\sqrt{\bar{\alpha}_{t+1}}f_{\theta}(z_t,t,v)+\sqrt{1-\bar{\alpha}_{t+1}}\epsilon_{\theta}(z_t,t,v) \quad (4)

其中,

z_t

是步骤

t

的含噪隐空间表示,

\sqrt{\bar{\alpha}_{t+1}}

是 DDIM 中定义的噪声因子,

f_{\theta}(z_t,t,v)

预测了最终的去噪隐空间表示

z_0

f_{\theta}(x_t,t,c)=\frac{x_t-\sqrt{1-\bar{\alpha}_{t}}\epsilon_{\theta}(x_t,t,c)}{\sqrt{\bar{\alpha}_{t}}} \quad (5)

Classifier-free guidance

扩散模型可能会忽略条件输入,产生与输入不相关的结果。解决这个问题的一种方法是无分类器指导。在去噪阶段,当引导尺度

w\geq 1

时,无分类器引导预测定义为:

\widetilde{\epsilon}_{\theta}(z_t,t,v)=w\cdot {\epsilon}_{\theta}(z_t,t,v)+(1-w)\cdot{\epsilon}_{\theta}(z_t,t,v_{\varnothing}) \quad (6)

方法

整体框架

对于给定的源图像

x^{src}

和参考图像

x^{ref}

, VCT 的目标是生成一个符合

x^{ref}

的新图像

x^{tgt}

,同时保留

x^{src}

的结构和语义布局。

下图是 VCT 的总体框架,包括内容-概念反演(CCI)过程和内容-概念融合(CCF)过程。CCI 过程将源图像

x^{src}

和参考图像

x^{ref}

中的内容和概念提取为可学习的嵌入。CCF 过程采用了一个双分支去噪架构,包括一个主分支

\mathcal{B}

和一个内容匹配分支

\mathcal{B}^*

。这两个分支都是从相同的由

x^{src}

反演得到的初始噪声开始的。内容匹配分支通过注意力控制机制重构源图像并提取注意力图来指导主过程,主分支收集所有信息得到目标图像

x^{tgt}

图1

内容-概念融合网络 CCF

\epsilon

域融合

对于两个不同的文本嵌入

v^{src}

v^{ref}

,他们分别产生两种不同的噪声预测

\epsilon^{src}

\epsilon^{ref}

\epsilon^{src}={\epsilon}_{\theta}(z_t,t,v^{src}),~\epsilon^{ref}={\epsilon}_{\theta}(z_t,t,v^{ref}) \quad (7)

根据分类器引导和无分类器引导的结论,每个扩散步骤中的噪声预测可以看作是为分数估计函数。

{\epsilon}_{\theta}(z_t,t,v^{src}) \approx -\sigma_t \nabla_{z_t} logp(z_t|v) \quad (8)

独立的文本嵌入

v^{src}

v^{ref}

可以在

\epsilon

空间中融合,生成包含源图像和参考图像某些属性的图像。

\widetilde{\epsilon}_{\theta}(z_t,t,v^{src},v^{ref})=w\cdot {\epsilon}^{src}+(1-w)\cdot{\epsilon}^{ref}) \quad (9)

其中,

w

是平衡两项的超参数权重。

图2

双分支去噪网络

初始噪声

x_T

由 DDIM inversion 公式对

x^{src}

进行反演得到,式中

v = v_{\varnothing}

。本方法采用了双分支去噪架构,分别为主分支

\mathcal{B}

和内容匹配分支

\mathcal{B}^*

。内容匹配分支

\mathcal{B}^*

是一个完全重构源图像

x^{src}

的去噪过程,主分支

\mathcal{B}

是最终完成 I2I 任务的去噪过程。

\mathcal{B}^*:z_T \rightarrow z_{T-1}^* \rightarrow ... \rightarrow z_1^* \rightarrow z^{src} \quad (10)
\mathcal{B}:z_T \rightarrow z_{T-1} \rightarrow ... \rightarrow z_1 \rightarrow z^{tgt} \quad (11)

在每个去噪步骤

t

,内容匹配分支

\mathcal{B}^*

旨在提取文本嵌入

v^{src}_t

和注意力图

M^*_t

,它们将用于主分支并行的去噪步骤。通过

\mathcal{B}^*

,我们获得了源图像的嵌入和结构信息。

为了更好地注入源图像

x^{src}

的信息,除了

\epsilon

空间融合中使用的参考嵌入外,双分支扩散过程具有几乎相同的计算 pipeline。通过以下方法在内容匹配分支中进行

\epsilon

空间融合:

\widetilde{\epsilon}_{\theta}(z_t,t,v^{src},v^{\varnothing})=w\cdot {\epsilon}^{src}+(1-w)\cdot{\epsilon}^{\varnothing}) \quad (12)

其中,两分支的权重

w

必须保持一致。

图3

注意力控制

M^*_t

是内容匹配分支时间步

t

的注意力图,

M_t

是主分支的注意力图。则注意力控制被定义为

AC(M_t,M_t^*,t)=\left\{ \begin{array}{} M_t^* & {\text{if}~t < \tau}\\ M_t & {\text{otherwise,}} \end{array} \right. \quad (13)

其中,

\tau

是决定从哪个步骤开始替换注意力图的时间参数。

内容-概念反演网络 CCI

Pivotal turning inversion

枢轴调整反演用于生成指导 CCF 过程的内容嵌入。在 DDIM inversion 过程中,每个步骤都包含一个小的误差。对于无条件扩散模型,累积误差可以忽略不计。然而,使用Stable Diffusion进行编辑需要用到指导尺度为

w

的无分类器指导,则会放大累计误差。

Null-text inversion 修改了每个时间步骤

t

中用于无分类器指导的无条件嵌入,以匹配初始的条件 DDIM 反演过程。

在本方法中,以图像作为指导,无法获得源图像

x^{src}

对应的准确文本提示。因此,本文采用了无条件 DDIM 反演,并在每个时间步骤

t

中优化源图像文本嵌入

v^{src}_t

,以精确匹配源图像

x^{src}

。优化函数为

\min_{v^{src}_t}||z_0-\hat{z}_0(z_t,v^{src}_t)||_2^2 \quad (14)

其中,

\hat{z}_0(z_t,v^{src}_t)

是给定

z_t

v^{src}_t

估计的去噪特征图

\hat{z}_0

\hat{z}_0(z_t,v^{src}_t)=\frac{z_t}{\sqrt{\bar{\alpha}_t}}-\frac{\sqrt{1-\bar{\alpha}_t}}{\sqrt{\bar{\alpha}_t}}\widetilde{\epsilon}_{\theta}(z_t,t,v^{src},v^{\varnothing}) \quad (15)

Multi-concept inversion

多概念反演过程,通过生成概念嵌入来表示复杂的视觉概念。我们需要从参考图像

x^{ref}

中学习一个参考嵌入

v^{ref}

为了表示输入图像中的视觉概念,TI 从小样本图像中学习伪词

S_*

的嵌入;DreamArtist 改进了 TI,从单张图像中学习到成对的正/负多概念嵌入(

S_*^p

S_*^n

),并提出了细节增强的重建约束。本方法采用了与 DreamArtist 相似的策略,但是加入了两个改进:

首先,多概念嵌入有助于从图像中挖掘语义信息。在本文的方法中,负嵌入与源嵌入

x^{src}

冲突。因此,本文仅使用正多概念嵌入来学习参考文本嵌入

v^{ref}

。冻结生成扩散模型的参数

\epsilon_{\theta}

,并使用以下目标函数优化

v^{ref}

:

\mathcal{L}_{ldm}=E_{\epsilon,t}[||\epsilon-\epsilon_{\theta}(z_t^{ref},t,v^{ref})||^2_2] \quad (16)

其中,

v^{ref}

是多概念嵌入,

z_t^{ref}

z_0^{ref}

的加噪版本。

其次,本文改进了 DreamArtist 中细节增强机制的重建约束。DreamArtist 在图像空间中应用重构约束,即

\mathcal{D}(\hat{z}_{t-1} (z_t,S_∗))\leftrightarrow x_0

。一方面,由于解码器

\mathcal{D}

内部的梯度反向传播,在图像空间中的优化需要消耗巨大的资源。另一方面,估计

z_{t−1}

z_0

之间存在差距,特别是在去噪过程的早期阶段。因此,本方法在隐空间中实现重构约束。重建损失可以表示为:

\mathcal{L}_{rec}=E_{\epsilon,t}[||z_0^{ref}-\hat{z}_0(z_t^{ref},v^{ref}_t)||^2_2] \quad (17)

其中,

\hat{z}_0(z_t^{ref},v^{ref}_t)

为根据给定的

z_t^{ref}

v^{ref}_t

估计的去噪特征图

\hat{z}_0^{ref}

实验

实验结果

通用 I2I 任务

图4

对于像 SD 和 Prompt2prompt 的文本-图像生成模型,使用BLIP 图像描述模型提取文本描述作为输入。基于 GAN 的方法 TuiGAN 和PhotoWCT 在只有一张图像作为输入时,生成质量很差,只转换了参考图像的部分纹理特征。因此,基于 GAN 的方法在 one-shot 场景下不能取得令人满意的效果。基于扩散模型的方法 SD 和 TI 可以很好地保留参考图像中的概念,但不能提取源图像中的内容信息。Prompt2prompt 可以很好地保留图像内容,但无法与参考图像中的概念融合。

图5

所提出的 VCT 通过克服上述方法的所有缺点,可以在保持学习到的概念和内容的情况下生成最佳结果。此外,为了评估所提出的 VCT 的图像转换能力,保持内容图像不变,改变不同的参考图像。不同参考图像的生成结果显示出令人满意的内容保持和概念翻译能力。

图6

图像风格转换

图7

图8

除了通用的 I2I 任务,VCT 在图像风格迁移任务中也取得了优异的结果。基于 GAN 的方法生成的结果有时存在较大缺陷。基于扩散模型的方法 SD 和 TI 同样存在内容无法完全保留的问题。Prompt2prompt 虽然保留了源图像的内容,但不能很好地转换参考图像中的概念。

消融性实验

图9

对 VCT 方法的每个组成部分进行了消融实验,并展示了其有效性,包括多概念反演(MCI)、枢轴调整反演(PTI)和注意力控制(AC)。删除 MCI 后,通过使用单词 “dog” 生成参考嵌入

v^{ref}

,生成的结果与参考图像中的特定目标不一致。在不使用 PTI 时,由于 DDIM 采样轨迹不一致,内容匹配分支无法重建源内容图像。去除AC后,则无法保留内容图像的结构。总的来说,通过使用所有提出的组件可以获得最佳的生成输出,更好地保留了内容图像的结构和语义布局,同时符合参考图像。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 理论基础
  • 方法
    • 整体框架
      • 内容-概念融合网络 CCF
        • 内容-概念反演网络 CCI
        • 实验
          • 实验结果
            • 消融性实验
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档