前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微软开源 PromptFix | 从命令到图像,引领扩散模型进入精确控制新时代 !

微软开源 PromptFix | 从命令到图像,引领扩散模型进入精确控制新时代 !

作者头像
AIGC 先锋科技
发布2024-07-08 14:00:48
1010
发布2024-07-08 14:00:48
举报
文章被收录于专栏:AIGC 先锋科技

配备了语言模型的扩散模型在图像生成任务中展示了出色的可控性,使得图像处理能够遵循人类的指令。然而,缺乏遵循指令的数据多样性阻碍了有效识别和执行用户定制指令的模型发展,特别是在低级任务中。 此外,扩散过程的随机性导致在需要保留生成图像细节的任务中存在缺陷。 为了解决这些限制,作者提出了PromptFix,一个使扩散模型能够遵循人类指令执行各种图像处理任务的全面框架。 首先,作者构建了一个大规模的遵循指令数据集,涵盖了全面的图像处理任务,包括低级任务、图像编辑和目标创建。接下来,作者提出了一种高频引导采样方法,以明确控制去噪过程并在未处理区域保留高频细节。最后,作者设计了一个辅助提示 Adapter ,利用视觉-语言模型(VLMs)来增强文本提示,提高模型的任务泛化能力。 实验结果表明,PromptFix在多种图像处理任务中优于先前的方法。 作者提出的模型在与基准模型的推理效率相当的同时,还在盲目修复和组合任务中展示了卓越的零样本能力。 数据集和代码可在https://github.com/yeates/PromptFix获取。

引言

近年来,扩散模型[55; 17; 61]在文本到图像生成方面取得了显著进展。得益于对大规模图像-文本对的训练[56],这些模型能够生成与文本提示高度一致且多样化的真实图像。它们已成功应用于视觉设计、摄影、数字艺术和电影产业等众多现实世界应用。此外,使用遵循指令数据进行训练的模型[7]在理解人类指令和执行相应图像处理任务方面展示了有希望的结果。先前的研究表明,使用遵循指令数据,作者可以简单地对文本到图像生成模型进行微调,以执行各种视觉任务,如图像编辑、目标检测[20]、分割[21]、修复[69; 21]和深度估计[20]。为了追随这些方法的成功,作者使用输入-目标-指令三联数据进行低级图像处理任务的模型训练。

作者首先解决了缺乏遵循指令的低 Level 任务数据的挑战。具体来说,作者通过从源图像生成降级图像来收集图像对,并采用现有数据集的数据。然后作者使用GPT4 为每个任务生成多样化的文本指令。作者在收集的数据集中获得了大约134万个输入-目标-指令三元组。这个数据集涵盖了各种低 Level 任务,包括图像修复、目标创建、图像去雾、着色、超分辨率、低光照增强、除雪和水印去除。作者通过三元组内修复图像和原始图像的交换以及提示语义方向的反转,进行回译增强来丰富数据集。这项技术轻松地将数据集从目标移除转换为目标创建。作者还在第3节中提供了详细的细节。

借助该数据集,作者设计了一个名为PromptFix的新扩散模型,该模型可以理解用户自定义的指令并执行相应的低 Level 图像处理任务。在PromptFix中,作者解决了几个可能会影响模型性能的挑战。首先,将稳定扩散架构 [55] 作为生成先验通常面临由VAE压缩 [18] 引起的空间信息丢失的问题。与无条件或文本到图像生成不同,在图像处理中保持空间细节一致性具有很大挑战性,尤其是对于如图5所示的高频成分,如文本。为了解决这个问题,作者引入了高频引导采样,其中作者使用低通滤波器操作符 [52; 48] 来计算保真度约束,并在推理过程中通过轻量级的LoRA [25] 融合集成VAE跳跃连接特征。其次,由于生成先验没有在低 Level 图像上进行训练,因此仅依赖指令可能并不总是能产生预期结果,特别是在图像降级严重时。为了解决这个降级适配问题,作者引入了一个辅助提示模块,为模型提供更多描述性的文本提示,以增强图像生成的可控性。辅助文本提示可以通过VLMs [43] 获取。这种方法为降级图像引入了语义描述及其缺陷的描述,例如模糊或不充分照明。辅助提示模块通过扩散U-Net中的附加注意力层实现,该层将指令和辅助提示都作为条件进行适配,并在训练过程中间歇性地省略指令提示。

作者确定了这种方法有三个主要优点:

1)使模型能够处理严重降级的图像,例如极低分辨率的图像;

2)使模型能够适应不同类型图像降级的盲目恢复;

3)为目标图像更精确的语义表示提供额外路径。

实验结果表明,在基于指令的范式中,作者的模型在三个图像编辑任务(着色、水印去除、目标去除)和四个图像恢复任务(去雾、除雪、超分辨率和低光照增强)上,在感知像素相似性 [72] 和无参考图像质量 [68] 方面取得了卓越的性能。

总之,作者的贡献有三方面:

  1. 作者提出一个专为低 Level 图像处理任务设计的综合数据集。该数据集包含大约134万对多样化的输入-输出图像以及相应的图像编辑指令。
  2. 针对低 Level 图像处理任务的PromptFix。广泛的实验结果表明,PromptFix在多种图像处理任务中优于先前的方法,并在盲恢复和组合任务中展现出卓越的零样本能力。
  3. 针对基于指令的扩散模型在低 Level 任务中的高频信息丢失和处理严重图像退化失败的问题,提出了高频引导采样和辅助提示模块到扩散模型。

2 Related Work

Instruction-guided Image Editing

指令引导的图像编辑通过遵循人类的指示,显著提高了视觉操作的便捷性和精确性。在传统的图像编辑中,模型主要关注单一任务,如风格迁移或领域适应[22; 54],利用各种技术将图像编码为可操作的潜在空间,例如StyleGAN[33]中使用的技术。与此同时,文本到图像扩散模型[55; 24; 58; 60]的出现扩大了图像编辑的范围[7; 23]。Kim等人[34]展示了如何进行全局更改,而Avrahami等人[4]则成功使用用户提供的 Mask 进行局部操作。尽管大多数只需要文本(即不需要 Mask )的工作仅限于全局编辑[15; 36]。Bar-Tal等人[6]提出了一种基于文本的局部编辑技术,无需使用任何 Mask ,展示了令人印象深刻的结果。对于局部图像编辑,可以通过修复指定区域来进行精确操作,这些区域由用户提供或算法预测的 Mask 确定[14; 63; 70],同时保持相邻区域的视觉完整性。

相比之下,基于指令的图像编辑通过直接命令如“在天空中添加烟花”来操作,无需详细的描述或区域 Mask 。最近的 approaches 利用合成的输入-目标-指令三元组[7]并融入人类反馈[73]来有效地执行编辑指令。尽管在使用扩散模型进行各种指令引导的图像编辑任务方面取得了进展,但在特定于使用这些模型进行指令引导的图像恢复研究方面仍存在显著的研究空白。作者的研究旨在通过收集全面的配对低 Level 指令驱动图像编辑示例数据集,并提出一个适用于低 Level 任务和编辑的一体化模型来填补这一空白。

Large Language Models for Vision

近期在大型语言模型(LLM)开发方面的进展导致了具有广泛能力的高能力模型的涌现。这些在基于大规模互联网数据集上预训练的LLM配备了广泛的知识库,增强了它们的零样本学习和上下文学习能力。此外,越来越多的研究关注于将LLM用于多模态任务,采用了如视觉语言对齐和 Adapter 微调等方法。这些技术确保了视觉编码器处理的视觉数据与LLM的文本输入在语义上是对齐的[43]。这种方法推动了文本到图像生成的显著进步,促进了各种基于LLM的扩散模型的发展[41; 26; 40]。尽管取得了这些成功,但仍然相对缺乏研究聚焦于使用大型视觉语言模型(VLM)进行指令图像编辑,特别是在详细、低 Level 的编辑任务中。

3 Data Curation

当前现成的图像数据集[7; 71; 73]带有指导性标注,主要促进图像编辑研究,包括诸如颜色传递、目标替换、目标移除、背景更改和风格迁移等任务。然而,它们与低级应用的重叠是有限的。此外,作者发现现有模型在图像恢复方面难以取得满意的结果。作者的目标是构建一个专门针对低级任务的综合性视觉指令跟随数据集。作者获得了大约134万个训练三元组实例。

配对图像收集。作者最初从各种现有数据集中收集源图像。随后,作者生成退化和修复的图像,以创建广泛的配对图像数据集。作者在八个任务中编译了大约200万原始数据点:图像修复、目标创建、图像去雾、图像着色、超分辨率、低光照增强、除雪和去除水印。对于测试集,作者为每个任务随机选择300个图像对。关于数据集组成的更多细节将在附录中提供。

指令提示生成。对于每个低级任务,作者使用GPT-4生成多样化的训练指令提示。这些提示包括特定任务和一般指令。特定任务的提示超过250条,清晰地定义了任务目标。例如,去雾任务的“通过减少雾气提高图像的可见性”。一般指令包括五条含糊的命令,作者将其保留为“负面”提示,以促进适应性任务。具体用于训练的指令提示在附录中详细说明。对于去除水印、超分辨率、去雾、除雪、低光照增强和着色任务,作者还为每个实例生成了“辅助提示”。这些辅助提示描述了输入图像的质量问题,并提供语义描述。更多细节将在4.2节中讨论。

4 Methodology

Diffusion Model

VLM-based Auxiliary Prompt Module

由于低级图像处理主要关注处理退化的图像而非真实世界的图像,作者采用集成视觉语言模型(VLM)来估计低级图像的辅助提示。这个辅助提示包括语义描述和缺陷描述,以增强目标图像的语义清晰度,从而解决低级图像处理任务中固有的指导性差距。

High-frequency Guidance Sampling

在图像恢复和生成任务中有一个基本要求:处理后的图像在语义上必须保持高准确度。

作者观察到,如图5所示,普通的VAE重建往往会丢失包含高频信息的图像细节,比如文本渲染。因此,作者提出了高频引导采样来平衡生成质量和保真度。

去噪采样基于EDM公式[32]。为了保持空间信息,作者使用一个修改后的VAE解码器将潜在空间映射到像素空间。作者通过将VAE编码器的跳跃连接特征通过额外的LoRA卷积[25]来修改VAE解码器,以合并特征图。LoRA网络是随机初始化的,其可训练参数表示为。由于LoRA卷积的参数很轻量,多步反向传播可以保持高频一致性,而无需广泛的微调。

5 Experiments

Experimental Setup

实现细节。作者在32个NVIDIA V100 GPU上对PromptFix进行46个周期的训练,使用学习率为的Adam优化器。训练输入分辨率设置为,与作者的 Backbone 模型LLaVA1.5-7B [43]和Stable Diffusion 1.5 [55]的能力相匹配。为了促进无分类器引导[7],在训练期间,作者以0.075的概率随机丢弃输入图像潜在值、指令和辅助提示。算法1中时间尺度权重的超参数经验性地设置为0.001。更多实现细节请参阅附录。

** Baseline 与评价指标**。作者将基于指令的通用模型,如InstructP2P [7]、MGIE [19]和InstructDiffusion [21],作为作者的主要比较目标。MGIE采用VLM引导的技术在图像编辑上,而InstructDiffusion解决了与作者的训练目标重叠的任务,包括去除水印和图像修复。此外,作者还评估了全能型图像恢复方法,如AirNet [38]和PromptIR [51](不支持指令输入),以及针对特定子任务进行微调的图像恢复专家模型[46, 69]。作者使用PSNR、SSIM [65]和LPIPS [72]等指标评估生成图像与 GT 值的相似度。对于无参考图像质量评估,作者使用ManIQA [68]指标。

定量与定性结果

表1展示了通过LPIPS和ManIQA指标评估的图像恢复和编辑技术的比较分析。专家模型-Diff-Plugin在低光照增强(LPIPS/ManIQA:0.227/0.453)和除雪(0.133/0.508)方面的性能有限但显著。在通用方法中,AirNet在除雪和消雾等任务上表现出均衡的能力,分别实现了LPIPS/ManIQA分数为0.245/0.589和0.039/0.780。然而,指令驱动的扩散方法呈现出更为细微的图景,其中PromptFix特别有前景。它在彩色化(LPIPS/ManIQA:0.233/0.489)、目标移除(0.054/0.810)和去除水印(0.071/0.811)方面表现出色,一致优于其他方法。InstructP2P和InstructDiff在特定任务上,如低光照增强和消雾,也表现良好,但总体上无法与PromptFix的多功能性相匹敌。尽管MGIE在某些领域有效,但与“PromptFix(作者的)”相比,缺乏一致性,这突显了其在各种图像处理任务中的鲁棒性和卓越性能。这表明PromptFix具有通过先进的指令驱动扩散方法论在领域中设立新基准的潜力。

图3展示了所有选定 Baseline 模型的视觉比较。

在彩色化任务中,作者的PromptFix产生了视觉上最准确和最生动的结果,与地面真相非常接近。在去除水印任务中,它有效地恢复了原始图像,同时没有引入伪影,优于MGIE [19]和其他方法。在除雪和低光增强任务中,PromptFix实现了更清晰和更自然的输出,显著减少了噪声并增强了能见度。此外,在超分辨率任务中,PromptFix显示出卓越的清晰度和准确性,保留了细微的细节,并且超过了所有比较方法。在去雾任务中,尽管PromptFix的性能在视觉上与图像恢复专家PromptIR [51]和AirNet [38]相当,但PromptFix还是优于最近的基于稳定扩散的方法Diff-plugin [46],实现了干净、清晰的视觉效果,与地面真相非常接近。

抽象研究

高频引导采样有效性。 高频引导采样(HGS)方法旨在平衡 保真度 和 _质量_。为了验证HGS的有效性,作者进行了定性实验。如图5所示,在低光场景中,模型旨在增强输入图像的可见性(_质量_)同时保留其原始文本细节(_保真度_)。对于那些利用稳定扩散作为生成先验的 Baseline 方法,VAE强大的压缩能力也带来了空间信息丢失的问题,如图5中的InstructDiff [21],MGIE [19]和Diff-Plugin [46]所示。这个问题与模型有效遵循指令的能力无关。正如“无HGS的作者的方法”所示,与三种 Baseline 相比,作者的方法显著增强了低光图像,但仍然无法保留小尺度的文本结构。通过结合HGS,如图“作者的”所示,所提出的框架提供了一个高保真的解决方案,同时也满足了低光增强的指令。

VLM引导的盲目恢复。作者使用LLaVA [43]生成辅助提示,并将指令提示留空。这种方法使用户可以输入图像,而无需提供其恢复的指令。作者评估模型在这样盲目恢复任务上的性能,包括低光增强、除雪和去雾。如表3所示,作者的模型取得了与四个 Baseline 相当的性能,与地面真相的感知差异最小,并且具有卓越的零样本能力。

多任务处理。尽管PromptFix并没有被明确训练来在单一图像内同时处理多个低级任务,但它展示了多任务处理的能力。作者构建了一个包含200张图像的验证数据集,每张图像包含3个恢复任务,如着色、去水印、低光增强、除雪、去雾和超分辨率。作者将PromptFix与AirNet和PromptIR进行了基准测试,这两种都是通用的图像恢复方法,还包括了指令驱动的扩散方法InstructP2P和InstructDiff。如表2所示,PromptFix优于这些 Baseline 方法,在图像质量、结构相似性以及与 GT 值的最小感知差异方面表现出色,这体现在具有竞争力的PSNR、SSIM和LPIPS分数上,以及更高的ManIQA分数,表明结果视觉上令人愉悦且质量高。相反,尽管InstructP2P和InstructDiff等在某些指标上表现良好,但它们并不能与PromptFix在整体平衡性能上相匹配。这些结果证明了PromptFix的鲁棒性和多功能性。

6 Conclusion

作者提出了PromptFix,这是一个新型的基于扩散的模型,以及一个大规模的视觉指令训练数据集,旨在造福于指令引导的低级图像处理。PromptFix通过高频指导采样和基于VLM的辅助指令模块,有效地解决了空间信息丢失和降质适应的挑战。这些机制提高了模型在基于指令的图像处理范式中的性能。广泛的实验结果表明PromptFix在生成准确且高质量的图像方面具有先进的能力。除了在传统指标上的改进外,作者还观察到PromptFix在处理多任务处理以及在低光增强、除雪和去雾方面的盲目恢复也颇为有效。

数据集

目标移除与创建:基于GQA数据集[30],作者收集了一个包含30万图像对的 数据集。对于所有图像中的每个目标,作者使用Segment Anything Model[35]以边界框作为提示来分割目标,然后利用LaMa[62]来修复目标。对于每个目标,作者根据其与同一图像中其他目标的关系生成指令。作者支持使用原始图像输入、带边界框提示的图像和带点提示的图像进行目标移除;此外,作者还支持使用带边界框提示的图像和带点提示的图像进行目标创建。为了测试,作者从完整数据集中选择了308对图像。

图像去雾:作者使用合成数据集(RESIDE[37],SRRS[11])和真实世界数据集(Dense-Haze[1],O-Haze[2])进行训练,包括100对真实世界图像和102,230对室内外合成图像,这些图像来自ITS[37],OTS[37],SOTS户外[37],以及myuhaze500[37]。为了测试,作者随机从完整数据集中选择了300对图像。

着色:作者使用了包含46,465幅图像的Laion-5b[57]的一个子集,并生成了灰度图像。为了测试,作者随机从数据集中选择了300对图像。

超分辨率:作者使用了来自Laion-5b[57],Flickr30K[50],HQ-50K[67],Flickr1M和Pexels100K的子集组合,这些总共包含99,603幅图像。在Laion-5b[57],Flickr30K[50]和HQ-50K[67]中的所有图像都使用4、6、8、12和16的尺度进行下采样,总共产生了288,015对图像,其中大约有20万对以12和16的尺度进行下采样。对于包含197,973幅图像的Flickr1M和Pexels100K数据集,它们被下采样到图像长边的六个特定分辨率,从128到384,形成了一个包含315,000图像对的 数据集。为了测试,作者随机从完整数据集中选择了300对图像。

低光增强:作者使用了LOL[66],SID[9],SMID[8],和SDSD[64]的组合,这些总共包含47,139对图像。为了测试,作者从完整数据集中选择了336对图像。

除雪:作者使用了SRRS[11],CSD[12],RVSD[10],和Snow100K[47]的组合,这些总共包含60,879对图像。为了测试,作者随机从完整数据集中选择了300对图像。

图6:数据组成。

去除水印:作者使用了CLWD[44]和LOGO30K[16]的组合,这些总共包含124,805对图像。为了测试,作者随机从完整数据集中选择了300对图像。

限制

在不依赖用户输入指令的情况下,作者的PromptFix实现了低级增强、去雾和除雪的盲目恢复。然而,作者观察到这种方法有时会导致图像控制超出条件,即模型基于辅助提示进行文本到图像的生成,而不是图像处理。尽管盲目恢复是基于作者VLM的辅助提示模块的一个特点,但对于已知的降质,作者建议提供用户自定义的指令来指定恢复。

高频指导采样显著帮助保留了原始图像细节,抵消了由VAE压缩引起的空间信息丢失。然而,作者发现采用HGS使得修复后的图像略微类似于降质图像。尽管与 Baseline 相比PromptFix仍然很有前景,如图5所示,没有HGS的结果比有HGS的结果要亮。正如作者一直所声称的,采用HGS涉及忠实度与质量之间的权衡。在VAE重建足够忠实且用户需求优先考虑质量的场景中,可以省略HGS。

参考

[1].PromptFix: You Prompt and We Fix the Photo.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 2 Related Work
  • Instruction-guided Image Editing
  • Large Language Models for Vision
  • 3 Data Curation
  • 4 Methodology
  • Diffusion Model
  • VLM-based Auxiliary Prompt Module
  • High-frequency Guidance Sampling
  • 5 Experiments
  • Experimental Setup
    • 定量与定性结果
      • 抽象研究
      • 6 Conclusion
        • 数据集
          • 限制
          • 参考
          相关产品与服务
          图像处理
          图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档