前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image

CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image

作者头像
公众号机器学习与AI生成创作
发布2024-04-18 18:47:29
4890
发布2024-04-18 18:47:29
举报

1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。

本文提出利用预训练的文本到图像模型作为先验,并从真实世界数据中单一去噪过程中学习生成多视角图像。具体而言,将3D体渲染和跨帧注意力层集成到现有的文本到图像模型的每个块中。此外,设计一种自回归生成,可以从任意视点渲染出更具3D一致性的图像。使用真实世界的物体数据集来训练模型,并展示了它生成具有各种高质量形状和纹理的实例的能力。

与现有方法相比,生成的结果一致,并且具有良好的视觉质量(FID减少30%,KID减少37%)。https://lukashoel.github.io/ViewDiff/

2、NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging

布局感知的文本到图像生成,是一种生成反映布局条件和文本条件的多物体图像的任务。当前的布局感知的文本到图像扩散模型仍然存在一些问题,包括文本与布局条件之间的不匹配以及生成图像的质量降低。

本文提出一种新的布局感知的文本到图像扩散模型,称为NoiseCollage,以解决这些问题。在去噪过程中,NoiseCollage独立估计各个物体的噪声,然后将它们裁剪和合并为一个噪声。这个操作有助于避免条件不匹配,换句话说,它可以将正确的物体放在正确的位置。

定性和定量评估结果表明,NoiseCollage优于几种最先进的模型。还展示了NoiseCollage可以与ControlNet集成,使用边缘、草图和姿势骨架作为附加条件。实验结果表明,这种集成可以提高ControlNet的布局准确性。https://github.com/univ-esuty/noisecollage

3、Discriminative Probing and Tuning for Text-to-Image Generation

尽管在文本-图像生成(text-to-image generation)方面取得了进步,但之前方法经常面临文本-图像不对齐问题,如生成图像中的关系混淆。现有解决方案包括交叉注意操作,以更好地理解组合或集成大型语言模型,以改进布局规划。然而,T2I模型的固有对齐能力仍然不足。

通过回顾生成建模和判别建模之间的联系,假设T2I模型的判别能力可能反映了它们在生成过程中的文本-图像对齐能力。鉴于此,提倡增强T2I模型的判别能力,以实现更精确的文本-图像对齐以进行生成。

提出一个基于T2I模型的判别适配器,以探索他们在两个代表性任务上的判别能力,并利用判别微调来提高他们的文本-图像校准。鉴别适配器的好处是,自校正机制可以利用鉴别梯度,在推理过程中更好地将生成的图像与文本提示对齐。

对三个基准数据集(包括分布内和分布外场景)的综合评估表明,方法具有优越的生成性能。同时,与其他生成模型相比,它在两个判别任务上实现了最先进的判别性能。https://github.com/LgQu/DPT-T2I

4、Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

文本到视频(T2V)合成在学术界越来越受关注,其中新出现的扩散模型(DM)在性能上显示出比以往方法更强大的表现。虽然现有的最先进DM在实现高分辨率视频生成方面表现出色,但在复杂的时间动态建模方面(如动作发生紊乱、粗糙的视频动作)仍然存在很大局限性。

这项工作研究强化DM对视频动态感知的方法,用于高质量的T2V生成。受人类直觉的启发,设计一种新的动态场景管理器(称为Dysen)模块,包括(步骤1)从输入文本中提取具有适当时间顺序的关键动作,(步骤2)将动作计划转化为动态场景图(DSG)表示,和(步骤3)丰富DSG中的场景以提供充分和合理的细节。通过在上下文学习中利用现有的强大LLMs(如ChatGPT),Dysen实现了(几乎)与人类水平的动态时间理解。最后,具有丰富动作场景细节的视频DSG被编码为细粒度的时空特征,集成到基础T2V DM中进行视频生成。

在流行的T2V数据集上的实验表明,Dysen-VDM始终以显着的优势超越以前的方法,特别是在复杂动作场景中。

5、Face2Diffusion for Fast and Editable Face Personalization

面部个性化,旨在将来自图像的特定面部插入预先训练的文本到图像扩散模型中。然而,以往的方法在保持身份相似性和可编辑性方面仍然具有挑战,因为它们过拟合于训练样本。

本文提出一种用于高可编辑性面部个性化的Face2Diffusion(F2D)方法。F2D背后的核心思想是从训练流程中去除与身份无关的信息,以防止过拟合问题并提高编码面部的可编辑性。F2D包含以下三个新颖的组成部分:1)多尺度身份编码器提供了良好分离的身份特征,同时保持多尺度信息的好处,从而提高了摄像机姿势的多样性。2)表情引导将面部表情与身份进行分离,提高了面部表情的可控性。3)类别引导的去噪正则化鼓励模型学习如何对面部进行去噪,从而提高了背景的文本对齐性。

在FaceForensics++数据集和各种提示上进行的广泛实验表明,与先前最先进的方法相比,方法在身份和文本保真度之间取得了更好的平衡。https://github.com/mapooon/Face2Diffusion

6、LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model

本文提出LeftRefill,一种新方法,有效利用大型文本到图像(T2I)扩散模型进行参考引导图像合成。顾名思义,LeftRefill将参考视图和目标视图水平拼接在一起作为整体输入。参考图像占据左侧,而目标画布位于右侧。然后,LeftRefill根据左侧参考和特定的任务指令绘制右侧的目标画布。这种任务形式与上下文修复类似,类似于人工画家的操作。

这种新形式有效地学习了参考和目标之间的结构和纹理对应关系,而无需其他图像编码器或适配器。通过T2I模型中的交叉注意力模块注入任务和视图信息,并通过重新排列的自注意力模块进一步展示了多视图参考能力。这使得LeftRefill能够作为一个通用模型执行一致的生成,而无需在测试时进行微调或模型修改。因此,LeftRefill可以看作是一个简单而统一的框架来解决参考引导合成的问题。

作为示例,利用LeftRefill来解决两个不同的挑战:参考引导修复和新视角合成,基于预先训练的StableDiffusion模型。https://github.com/ewrfcas/LeftRefill

7、InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

大规模的图像到文本(T2I)扩散模型,展示出了生成基于文本描述的连贯图像能力,为内容生成提供广泛应用。尽管已有一定可控性,如对象定位、姿势和图像轮廓,但控制所生成内容中对象之间相互作用方面,仍存差距。在生成图像中控制对象之间的相互作用可能产生有意义的应用,例如创建具有交互式角色的现实场景。

这项工作研究将T2I扩散模型与Human-Object Interaction(HOI)信息进行条件化的问题,该信息由三元标签(人、动作、对象)和相应的边界框组成。提出一种名为InteractDiffusion的交互控制模型,它将现有的预训练T2I扩散模型扩展到能够更好地对交互进行条件控制。具体而言,对HOI信息进行tokenize,并通过交互嵌入来学习它们之间的关系。对训练HOI tokens到视觉tokens的条件化自注意层进行了训练,从而更好地对现有的T2I扩散模型进行条件化。

模型具有控制交互和位置的能力,并在HOI检测得分方面远远优于现有的基准模型,以及在FID和KID方面具有更好的保真度。https://jiuntian.github.io/interactdiffusion/

8、MACE: Mass Concept Erasure in Diffusion Models

大规模文本到图像扩散模型的快速扩张引起了人们对其潜在误用创造有害或误导性内容的日益关注。本文提出一种名为MACE的微调框架,用于MAss Concept Erasure(MACE)任务。该任务旨在防止模型在提示时生成具有不需要的概念的图像。现有的概念消除方法通常只能处理少于五个概念,同时很难在概念同义词(广义性)的消除和无关概念(特异性)的保留之间找到平衡。相比之下,MACE通过成功将消除范围扩大到100个概念,并在广义性和特异性之间实现了有效的平衡来实现差异。这是通过利用闭合形式的交叉注意力细化和LoRA微调来实现的,共同消除不需要的概念的信息。

此外,MACE在没有相互干扰的情况下整合了多个LoRA。在四个不同的任务中对MACE进行了广泛的评估:目标消除、名人消除、明确内容消除和艺术风格消除。结果表明,在所有评估任务中,MACE超过了之前的方法。https://github.com/Shilin-LU/MACE

9、MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

提出一个多实例生成(MIG)任务,同时在一张图像中生成具有多样控制的多个实例。给定一组预定义的坐标及其相应的描述,该任务是确保生成的实例准确位于指定的位置,并且所有实例的属性都与其相应的描述相符。这扩展了当前单实例生成研究的范围,将其提升到一个更多样化和实用的维度。

受到分而治之思想的启发,引入了一种名为多实例生成控制器(MIGC)的创新方法来应对MIG任务的挑战。首先,将MIG任务分解为几个子任务,每个子任务涉及一个实例的着色。为了确保每个实例的精确着色,引入了一种实例增强注意力机制。最后,聚合所有着色的实例,为准确生成多个实例的稳定扩散提供必要的信息(SD)。为了评估生成模型在MIG任务上的表现,提供一个COCO-MIG基准测试以及一个评估流程。

在提出的COCO-MIG基准测试以及各种常用基准测试上进行了大量实验。评估结果展示了模型在数量、位置、属性和交互方面的出色控制能力。https://migcproject.github.io/

10、One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications

商业和开源扩散模型(DMs)在文本到图像生成中的普遍使用引发了风险缓解,以防止不需要的行为。学术界已有的概念消除方法都是基于完全参数或基于规范的微调,从中观察到以下问题:1)向侵蚀方向的生成变化:目标消除过程中的参数漂移会导致生成过程中的变化和潜在变形,甚至会以不同程度侵蚀其他概念,这在多概念消除的情况下更为明显;2)无法转移和部署效率低下:以往的模型特定概念消除阻碍了概念的灵活组合和对其他模型的免费转移,导致部署的成本随着部署场景的增加而线性增长。

为实现非侵入式、精确、可定制和可转移的消除,将消除框架建立在一维适配器上,一次性从大多数DMs中消除多个概念,跨多种消除应用场景。概念-半渗透结构被注入到任何DM中作为膜(SPM),以学习有针对性的消除,并通过一种新的潜在锚定微调策略有效缓解变化和侵蚀现象。一旦获得,SPMs可以灵活组合并插入到其他DM中,无需特定的重新微调,能够及时高效地适应各种场景。在生成过程中,激活传输机制动态调节每个SPM的渗透性以响应不同的输入提示,进一步最小化对其他概念的影响。

在大约40个概念、7个DM和4个消除应用上的定量和定性结果证明了SPM的出色消除能力。https://lyumengyao.github.io/projects/spm

11、FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models

近年来,文本到图像生成模型的发展取得重大进展。评估生成模型的质量是开发过程中的重要步骤之一。评估过程可能会消耗大量的计算资源,使得所需的模型性能定期评估(例如监控训练进度)变得不切实际。因此寻求通过选择文本图像数据集的代表性子集来提高评估效率。

本文系统研究设计选择,包括选择标准(纹理特征或基于图像的指标)和选择粒度(提示级别或集合级别)。发现之前关于训练数据子集选择的工作中的见解并不能推广到这个问题,因此提出 FlashEval,一种针对评估数据选择而定制的迭代搜索算法。展示 FlashEval 对具有各种配置的扩散模型进行排名的有效性,包括 COCO 和 DiffusionDB 数据集上的架构、量化级别和采样器。搜索的 50 项子集可以实现与随机采样的 500 项子集相当的评估质量,以在未见过的模型上进行 COCO 标注,从而实现 10 倍的评估加速。后续将发布这些常用数据集的压缩子集,以帮助促进扩散算法的设计和评估,并开源 FlashEval 作为压缩未来数据集的工具。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与AI生成创作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
  • 2、NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging
  • 3、Discriminative Probing and Tuning for Text-to-Image Generation
  • 4、Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs
  • 5、Face2Diffusion for Fast and Editable Face Personalization
  • 6、LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model
  • 7、InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models
  • 8、MACE: Mass Concept Erasure in Diffusion Models
  • 9、MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis
  • 10、One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications
  • 11、FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档