前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scaling Up to Excellence: 恢复逼真的图像

Scaling Up to Excellence: 恢复逼真的图像

作者头像
用户1324186
发布2024-02-21 17:33:27
3560
发布2024-02-21 17:33:27
举报
文章被收录于专栏:媒矿工厂媒矿工厂

题目: Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild 作者: Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, Chao Dong 论文链接: https://arxiv.org/abs/2401.13627 来源:arxiv2024 内容整理: 周楚骎 SUPIR(Scaling-UP Image Restoration)是一种突破性的图像修复方法,它利用了生成先验和模型的放大能力。利用多模态技术和先进的生成先验,SUPIR标志着智能和逼真的图像恢复。作为SUPIR中的关键催化剂,模型的大参数量极大地增强了其功能,并展示了其图像恢复的新潜力。本文收集了一个包含 2000 万张高分辨率、高质量图像的数据集,用于模型训练,每张图像都富含描述性文本注释。SUPIR提供了在文本提示下恢复图像的能力,拓宽了其应用范围和潜力。此外本文引入了负面质量提示,以进一步提高感知质量。本文还开发了一种恢复引导的采样方法,以抑制基于生成恢复中遇到的保真度问题。实验证明了SUPIR具有非凡的修复效果,以及其通过文本提示操纵修复的新能力。

简介

随着图像修复(IR)的发展,人们对 IR 结果的感知效果的期望显著提高。基于生成先验的 IR 方法,利用强大的预训练生成模型将高质量的生成和先验知识引入 IR ,在这些方面取得了重大进展。不断增强生成先验的能力是实现更优秀的IR结果的关键,模型缩放是一种关键且有效的方法。有许多任务从扩展中获得了惊人的改进,例如SAM 和大型语言模型。这进一步激励努力构建能够产生超高质量图像的大规模智能图像修复模型。然而,由于计算资源、模型架构、训练数据以及生成模型和 IR 的协作等工程限制,扩展 IR 模型具有挑战性。

这项工作引入了 SUPIR(Scaling-UP IR),这是有史以来参数量最大的 IR 方法,旨在探索视觉效果和智能方面的更大潜力。具体来说,SUPIR采用StableDiffusion-XL(SDXL)作为强大的生成先验,其中包含26亿个参数。为了有效地应用这个模型,本文设计并训练了一个具有超过6亿个参数的适配器。此外,我们还收集了超过 2000 万张高质量、高分辨率图像,以充分发挥模型缩放的潜力。每张图片都附有详细的描述性文字,可以通过文字提示来控制修复。本文还利用 130 亿参数的多模态语言模型来提供图像内容提示,大大提高了本文方法的准确性和智能性。所提出的SUPIR模型在各种IR任务中表现出卓越的性能,实现了最佳的视觉质量,特别是在复杂和具有挑战性的现实场景中。此外,该模型通过文本提示提供了对恢复过程的灵活控制,极大地拓宽了 IR 的可能性。下图展示了本文模型的效果,展示了其卓越的性能。

图1 重建效果展示

在追求模型规模增长的同时,本文面临着一系列复杂的挑战。首先,当将SDXL应用于IR时,现有的Adaptor设计要么过于简单,无法满足IR的复杂要求,要么太大而无法与SDXL一起训练。为了解决这个问题,本文修剪了 ControlNet 并设计了一个名为 ZeroSFT 的新连接器来使用预训练的 SDXL,旨在高效实现 IR 任务,同时降低计算成本。为了增强模型准确解释低质量图像内容的能力,本文对图像编码器进行了微调,以提高其对图像退化变化的鲁棒性。这些措施使得模型的缩放可行有效,并大大提高了模型的稳定性。

其次,本文收集了 2000 万张带有描述性文本注释的高质量、高分辨率图像,为模型的训练提供了坚实的基础。本文采用反直觉的策略,将质量差的阴性样本纳入培训中。这样,本文就可以使用负面质量提示来进一步改善视觉效果。本文的结果表明,与仅使用高质量的正样本相比,该策略显着提高了图像质量。

最后,强大的生成先验是一把双刃剑。不受控制的生成可能会降低还原保真度,使 IR 不再忠实于输入图像。为了缓解这种低保真度问题,本文提出了一种新的恢复引导采样方法。所有这些策略,加上高效的工程实施,是实现SUPIR规模化的关键,推动了先进IR的界限。

方法

图2 SUPIR的工作流程

增大模型参数量

生成先验

大规模生成模型的选择并不多。唯一需要考虑的是Imagen、IF和SDXL。出于以下原因,本文选择了 SDXL。Imagen 和 IF 优先考虑文本到图像的生成,并依赖于分层方法。它们首先生成小分辨率图像,然后对它们进行分层上采样。SDXL 直接生成没有分层设计的高分辨率图像,这更符合本文的目标,因为它有效地利用其参数来提高图像质量,而不是文本解释。此外,SDXL 还采用了 Base-Refine 策略。在 Base 模型中,会生成多种多样但质量较低的图像。随后,Refine 模型增强了这些图像的感知质量。与 Base 模型相比,Refine 模型使用的训练图像质量明显更高,但多样性较低。考虑到我们使用大量高质量图像数据集进行训练的策略,SDXL 的两阶段设计对于本文的需求来说变得多余。本文选择了 Base 模型,它具有更多的参数,使其成为本文生成先验的理想骨干。

抗退化编码器

在SDXL中,扩散生成过程在潜在空间中执行。图像首先通过预先训练的编码器映射到潜在空间。为了有效地利用预训练的 SDXL,本文的 LQ 图像获得的

x_{LQ}

也应该映射到相同的潜在空间。然而,由于原始编码器没有在LQ图像上进行训练,因此使用它进行编码会影响模型对LQ图像内容的判断,进而将伪影误解为图像内容。为此,本文通过最小化

L_{\varepsilon} = ||D(\varepsilon_{dr}(x_{LQ})) − D(\varepsilon_{dr}(x_{GT}))||_2^2 \quad(1)

其中

\varepsilon_{dr}

是可微调的抗退化编码器,D 是固定的解码器。

大型适配器设计

考虑到本文选择的 SDXL 模型,本文需要一个适配器来引导它根据提供的 LQ 输入恢复图像。需要适配器来识别 LQ 图像中的内容,并在像素级别精细控制生成。LoRA、T2I adaptor 和 ControlNet 是现有的扩散模型自适应方法,但它们都不符合本文的要求:LoRA 限制了生成,但在 LQ 图像控制方面存在困难; T2I 缺乏有效识别 LQ 图像内容的能力;ControlNet 的直接复制对 SDXL 模型规模具有挑战性。为了解决这个问题,本文设计了一种具有两个关键特性的新型适配器,如下图(a)所示。首先,本文保留了ControlNet的高级设计,但采用网络修整来直接修整可训练副本中的一些块,从而实现在工程上可行的实施。SDXL编码器模块中的每个模块主要由几个 ViT 模块组成。我们确定了两个有助于 ControlNet 有效性的关键因素:大网络容量和可训练副本的高效初始化。值得注意的是,即使是对可训练副本中的块进行部分修剪,也会在适配器中保留这些关键特性。因此,只需从每个编码器块中修剪一半的ViT块,如下图(b)所示。其次,本文重新设计了将适配器连接到 SDXL 的连接器。虽然 SDXL 的生成能力提供了出色的视觉效果,但它也使像素级的精确控制具有挑战性。ControlNet 采用零卷积进行生成引导,但仅依靠残差不足以实现 IR 所需的控制。为了扩大LQ引导的影响,本文引入了一个ZeroSFT模块,如下图(c)所示。ZeroSFT基于零卷积构建,包括额外的空间特征转移(SFT)操作和群归一化。

图3 所用SDXL和提出的适配器的整体架构

扩展训练数据

图像收集

模型参数量的缩放需要对训练数据进行相应的缩放。但是目前还没有可用于 IR 的大规模高质量图像数据集。尽管DIV2K和LSDIR提供了高图像质量,但它们的数量有限。较大的数据集,如ImageNet(IN)、LAION-5B和SA-1B,包含更多的图像,但它们的图像质量不符合本文的高标准需求。为此,本文收集了一个新的高分辨率图像大数据集,其中包括 2000 万张 1024×1024 高质量、纹理丰富且内容清晰的图像。我们还从FFHQ-raw数据集中加入了额外的70K未对齐高分辨率面部图像,以改善模型的面部修复性能。

多模态语言指导

扩散模型以其基于文本提示生成图像的能力而闻名。本文认为,文本提示也可以显着帮助 IR,原因如下:(1) 理解图像内容对 IR 至关重要。现有的框架经常忽略或隐含地处理这种理解。通过结合文本提示,本文明确地将对LQ图像的理解传达给IR模型,促进有针对性地恢复缺失的信息。(2) 在严重退化的情况下,即使是最好的 IR 模型也可能难以恢复完全丢失的信息。在这种情况下,文本提示可以作为一种控制机制,根据用户偏好有针对性地完成缺失的信息。(3)本文还可以通过文本描述所需的图像质量,进一步增强输出的感知质量。为此,本文进行了两个主要修改。首先,本文修改了整体框架,将LLaVA多模态大型语言模型纳入本文的设计中。LLaVA 将经过降解的鲁棒性 LQ 图像

x'_{LQ} = D(\varepsilon_{dr}(x_{LQ}))

作为输入,并明确理解图像中的内容,输出以文字描述的形式。然后,这些描述将用作指导恢复的提示。此过程可以在测试期间自动执行,无需人工干预。其次,遵循PixART的方法,收集所有训练图像的文本注释,以加强文本控制在模型训练中的作用。这两个变化使SUPIR能够理解图像内容,并根据文本提示恢复图像。

负面提示词提示与采样

无分类器引导(CFG)提供了另一种控制方式,即使用负面提示词来指定模型不需要的内容。我们可以使用此功能来指定模型不生成低质量的图像。具体来说,在扩散的每一步,本文将使用正面提示词

pos

和负面提示词

neg

进行两次预测,并将这两个结果的融合作为最终输出

z_{t−1}

:

\begin{aligned}z_{t-1}^\mathrm{pos}&=\mathcal{H}(z_t,z_{LQ},\sigma_t,\text{pos}),z_{t-1}^\mathrm{neg}=\mathcal{H}(z_t,z_{LQ},\sigma_t,\text{neg}),\\z_{t-1}&=z_{t-1}^\mathrm{pos}+\lambda_\mathrm{cfg}\times(z_{t-1}^\mathrm{pos}-z_{t-1}^\mathrm{neg}),\end{aligned} \quad(2)

其中

H(.)

是带适配器的扩散模型,

\sigma_t

是噪声在时间步长 t 处的方差,

\lambda_{cfg}

是超参数。在本文的框架中,

pos

可以是正面提示词的图像描述,

neg

是负面提示词,例如油画、卡通、模糊、肮脏、凌乱、低质量、变形、低分辨率、过度平滑。预测的正方向和负方向的准确性对于CFG技术至关重要。然而,我们的训练数据中缺少负面质量的样本和提示可能会导致微调的 SUPIR 无法理解负面提示。因此,在采样期间使用负质量提示可能会引入伪影。为了解决这个问题,本文使用 SDXL 生成了对应负质量提示的 100K 图像。本文反直觉地将这些低质量的图像添加到训练数据中,以确保所提出的SUPIR模型可以学习负质量概念。

恢复引导采样

强大的生成先验是一把双刃剑,因为过多的生成容量反过来会影响恢复图像的保真度。这突出了 IR 任务和生成任务之间的根本区别。需要限制生成的方法,以确保图像恢复忠实于 LQ 图像。本文改进了EDM采样方法,并提出了一种恢复引导采样方法来解决该问题。本文希望在每个扩散步骤中选择性地引导预测结果

z_{t−1}

接近LQ图像

z_{LQ}

图4 恢复引导采样算法

具体算法如上图所示,其中T为总步数,

\{\sigma_t\}_{t=1}^T

为T步的噪声方差,c为附加文本提示条件。

\tau_r、S_{churn}、S_{noise}、S_{min}、S_{max}

是五个超参数,但只有

\tau_r

是与恢复有关指导,与原始EDM方法相比,其他方法保持不变。本文在预测输出

z_{t−1}

和 LQ 潜在

z_{LQ}

之间执行加权插值,作为恢复引导的输出

z_{t−1}

。由于图像的低频信息主要产生于扩散预测的早期阶段(其中t和

\sigma_t

比较大,权重

k=(\sigma_t/\sigma_T)^{\tau_r}

也很大),因此预测结果更接近

z_{LQ}

,以增强保真度。在扩散预测的后期阶段,主要产生高频细节。此时不应有太多约束,以确保可以充分生成细节和纹理。此时,t和

\sigma_t

相对较小,权重k也较小。因此,预测结果不会受到太大影响 通过这种方法,可以在扩散采样过程中控制生成,以保证保真度。

实验

模型训练和采样设置

对于训练,整体训练数据包括 2000 万张带有文本描述的高质量图像、70K 人脸图像和 100K 负质量样本以及相应的负面提示。为了实现更大的批量大小,本文在训练期间将它们裁剪成 512×512 的补丁。本文按照Real-ESRGAN使用的设置,使用合成退化模型训练模型,唯一的区别是本文将生成的LQ图像的大小调整为512×512进行训练。我们使用AdamW优化器,学习率为0.00001。训练过程持续 10 天,是在 64 个 Nvidia A6000 GPU 上进行,批大小为 256。对于测试,超参数为 T =100、

\lambda_{cfg}=7.5

\tau_r=4

。本文的方法能够处理大小为 1024×1024 的图像。本文将输入图像的短边调整为 1024,并裁剪一个 1024×1024 子图像进行测试,然后在恢复后将其调整回原始大小。除非另有说明,否则不会手动提供提示——处理将完全自动进行。

与现有方法的比较

我们的方法可以处理广泛的退化,并将其与具有相同功能的最先进的方法进行了比较,包括BSRGAN、RealESRGAN、StableSR 、DiffBIR和PASD。其中一些仅限于生成 512×512 大小的图像。在本文的比较中,本文裁剪测试图像以满足此要求,并对结果进行下采样,以便于进行公平的比较。

为了合成LQ图像进行测试,我们遵循先前的工作,并展示了我们对几种代表性退化的影响。本文选择了以下指标进行定量比较:全参考指标PSNR、SSIM、LPIPS,以及非参考指标ManIQA、ClipIQA、MUSIQ。可以看出,本文的方法在所有非参考指标上都取得了最好的结果,这反映了本文结果的出色图像质量。同时,本文也注意到本文的方法在全参考指标方面的缺点即本文的结果有更好的视觉效果,但它们在这些指标上没有优势。许多研究也注意到了这种现象。本文认为,随着IR质量的提高,有必要重新考虑现有指标的参考值,并提出更有效的方法来评估先进的IR方法。

表1 定量比较

消融实验

连接器

本文呢将所提出的ZeroSFT连接器与零卷积进行了比较。定量结果如下图c所示。与 ZeroSFT 相比,零卷积在非参考指标上产生可比的性能,而全参考性能则低得多。本文发现非参考指标的下降是由生成低保真度内容引起的。因此,对于IR任务,ZeroSFT 可在不损失感知效果的情况下确保保真度。

表2 真实世界的比较结果和消融研究

负面提示词提示与采样

上图b显示了不同设置下的一些定量结果。在这里,本文使用描述图像质量的正面词作为“正面提示”,并使用负面质量词描述的 CFG 方法作为负面提示。可以看出,单独添加正面提示或负面提示可以提高图像的感知质量。同时使用它们会产生最佳的感知效果。如果不包含阴性样本进行训练,这两个提示将无法提高感知质量。下图展示了使用负面提示带来的图像质量的提高。

图5 文本提示的影响

恢复引导采样方法

所提出的恢复引导采样方法主要由超参数

\tau_r

控制。

\tau_r

越大,每一步对生成的修正就越少。

\tau_r

越小,生成的内容就越多,将被迫更接近 LQ 图像。

图6 恢复引导采样方法的作用

\tau_r=0.5

时,图像模糊,因为其输出受到LQ图像的限制,无法生成纹理和细节。当

\tau_r=6

时,在生成过程中没有太多指导。该模型生成了大量 LQ 图像中不存在的纹理,尤其是在平坦区域。下图(a)说明了恢复的定量结果与变量

\tau_r

的函数关系。将

\tau_r

从6降低到4不会导致视觉质量的显著下降,而保真度性能会提高。随着修复指导的不断加强,尽管PSNR不断改进,但图像逐渐变得模糊,细节丢失。因此,选择

\tau_r=4

作为默认参数,因为它不会显著影响图像质量,同时有效地将提高保真度。

图7 恢复引导采样方法的定量效果

总结

本文提出 SUPIR 是一种开创性的 IR 方法,通过模型参数量提升、数据集丰富和高级设计功能,通过增强的感知质量和可控的文本提示来扩展 IR 的视野。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 方法
    • 增大模型参数量
      • 扩展训练数据
      • 实验
        • 模型训练和采样设置
          • 与现有方法的比较
            • 消融实验
              • 连接器
          • 总结
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档