前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【AIGC绘画】PCM完爆LCM | 1步生成高清图像

【AIGC绘画】PCM完爆LCM | 1步生成高清图像

作者头像
iResearch666
发布2024-06-14 20:30:57
620
发布2024-06-14 20:30:57
举报

⚡ PCM完爆LCM | 1步生成高清图像

Phased Consistency Model(PCM)是一种新型的生成模型,旨在解决Latent Consistency Model(LCM)在文本条件高分辨率生成中的局限性。PCM通过创新的策略在训练和推理阶段提高了生成质量,并通过广泛的实验验证了其在不同步骤(1步、2步、4步、8步、16步)下与Stable Diffusion和Stable Diffusion XL基础模型的结合效果。

先睹为快

01 Stable diffusion v1.5 :1步生成

02 Stable diffusion v1.5 :2步生成

03 Stable diffusion v1.5 :4步生成

04 Stable diffusion v1.5 :8步生成

05 Stable diffusion v1.5 :16步生成

06 SD/SDXL+LCM/PCM 对比 :1,2,4,8,16 步生成

  • SD + PCM
  • SDXL + PCM

07 Video generation + PCM

方法总结

背景和动机

一致性模型(CM)是一种新兴的生成模型,以高质量和快速生成著称。然而,当一致性模型被应用于潜在空间中的高分辨率、文本条件的图像生成时(即潜在一致性模型,Latent Consistency Model, LCM),效果并不理想。PCM 针对 LCM 的三大主要缺陷进行了改进:

  1. CFG 规模问题
    • LCM 只能接受小于 2 的 CFG(分类自由度)规模,更大的值会导致过度曝光问题。PCM 通过改进设计,解决了这一限制,使得模型可以处理更大的 CFG 规模而不产生过度曝光。
  2. 推理步骤一致性
    • LCM 在不同的推理步骤下无法产生一致的结果,推理步骤过大或过小都会导致结果模糊。PCM 通过分阶段(Phased)的一致性设计,确保在多步生成过程中保持结果一致性,从而提高生成图像的清晰度和质量。
  3. 分布一致性损失
    • LCM 的损失函数未能有效实现分布一致性,在低步数下生成的图像质量较差。PCM 引入了新的训练和推理策略,改善了低步数生成结果的质量。

训练范式

PCM是如何在训练过程中工作的:

  1. 训练组件:图示可能展示了PCM训练中涉及的主要组件,包括编码器、ODE求解器、噪声添加模块、以及可选的EMA(指数移动平均)更新等。
  2. 数据流:通过箭头和流程,图可能描述了数据在训练过程中的流向,从输入的噪声数据到通过PCM模型的转换,再到输出的生成数据。
  3. 训练步骤:Figure 4 可能将训练过程分解为多个步骤,每个步骤都对应着PCM中的一个特定操作,如参数化、蒸馏目标的计算、对抗性损失的计算等。
  4. 确定性和随机性:图可能展示了PCM如何在确定性采样和引入随机性之间进行平衡,以改善生成样本的质量和多样性。
  5. 引导式蒸馏:如果PCM使用引导式蒸馏,图可能展示了如何在训练中应用CFG(分类器自由引导)策略,以及如何通过调整CFG值来增强模型对文本提示的响应性。
  6. 对抗性损失:图可能展示了如何实现对抗性一致性损失,包括判别器的设计和如何通过最小化生成样本和真实样本之间的分布距离来训练PCM。
  7. 多步生成:作为PCM的关键特性之一,图可能展示了如何在多步生成中应用PCM,包括如何在每个子轨迹上执行自一致性属性的强制。
  8. 训练和推理的对比:图可能对比了训练和推理阶段的不同,展示了PCM如何在训练时学习数据分布,并在推理时生成新的样本。
  9. 可选组件:图可能还包括了一些可选使用的训练技术,如EMA更新,以及它们是如何与PCM的主要训练流程集成的。
  10. 训练目标:最后,图可能强调了PCM的训练目标,即通过相位一致性蒸馏和对抗性损失来最小化生成样本与真实数据之间的差异。

工作原理

1. ODE轨迹分割
2. 一致性函数定义
3. 参数化
4. 阶段一致性蒸馏目标

PCM的训练目标是最小化预训练的扩散模型(作为教师模型)和PCM(作为学生模型)之间的差异。这通过最小化一个损失函数来实现,该损失函数衡量了学生模型的输出与教师模型的输出之间的差异。

5. 采样过程

在采样时,PCM可以确定性地沿着每个子轨迹的解点进行采样,而不会累积随机误差。这意味着,给定一个初始样本,PCM可以通过一系列确定性的转换,从噪声数据逐步恢复出清晰的数据。

6. 引导式蒸馏

为了提高文本引导的可控性,PCM在蒸馏过程中以选择不使用分类器自由引导(CFG)策略。这使得PCM能够在推理时使用更大的CFG值,并对负面提示更敏感。

7. 对抗性一致性损失

为了在低步长设置中提高样本质量,PCM引入了对抗性损失。这个损失函数通过训练一个对抗性网络(例如GAN中的判别器)来强制模型学习数据分布,从而改善生成样本的质量。

优点

PCM的优点包括:

  1. 高效率:PCM可以生成高质量图像,效率高于传统的扩散模型。
  2. 高稳定性:PCM通过一致性函数实现了一致性,提高了模型的稳定性。
  3. 零样本图像编辑:PCM可以实现零样本图像编辑,例如图像超分辨率、修复和上色等任务。

局限性

  1. 低步长生成质量不稳定:尽管PCM能够在少步骤中生成高质量的图像和视频,但当步长非常低,尤其是仅使用单步时,生成的样本质量可能会不稳定。模型可能会产生结构错误或模糊的图像。
  2. 多步细化的需要:为了缓解低步长生成可能带来的质量问题,作者发现通过多步细化可以改善生成结果。这表明尽管PCM在加速生成方面取得了进展,但在极端条件下仍需要额外的细化步骤来确保质量。

应用场景

1. 高分辨率图像生成

PCM 在高分辨率、文本条件的图像生成任务中表现出色。相比于传统的潜在一致性模型(LCM),PCM 能够在多步生成过程中保持结果的一致性和高质量。它在不同推理步数(1-16步)的设置中均显著优于LCM,同时在单步生成中也表现出色。

2. 视频生成

PCM 不仅在图像生成上表现出色,还能够应用于视频生成。它可以用于训练目前最先进的少步文本到视频生成器。通过其分阶段的一致性设计,PCM 能够在低步数下生成高质量的视频,从而使得视频生成更加高效和稳定。

3. 文本生成图像

PCM 尤其适用于文本条件的图像生成任务。这类任务需要模型根据输入的文本描述生成对应的图像,PCM 通过改进一致性模型,使得在潜在空间中生成的图像更加清晰和符合文本描述。

4. 快速生成需求

在需要快速生成高质量图像的应用场景中,PCM 展现了其卓越的性能。相比于传统生成方法,PCM 可以在较少的生成步数内生成高质量的图像,显著提高了生成速度和效率。

5. 稳定扩散模型

PCM 也适用于需要稳定扩散的模型。通过其创新的分阶段一致性设计,PCM 能够在多步扩散过程中保持结果的一致性,适用于对结果稳定性要求较高的应用场景。

6. 研究与开发

PCM 为研究人员提供了一个强大的工具,用于探索和改进生成模型的设计和性能。它的灵活性和高效性使其成为生成模型研究中的重要方向。

免费试用

  • https://huggingface.co/spaces/radames/Phased-Consistency-Model-PCM
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 iResearch666 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 先睹为快
    • 01 Stable diffusion v1.5 :1步生成
      • 02 Stable diffusion v1.5 :2步生成
        • 03 Stable diffusion v1.5 :4步生成
          • 04 Stable diffusion v1.5 :8步生成
            • 05 Stable diffusion v1.5 :16步生成
              • 06 SD/SDXL+LCM/PCM 对比 :1,2,4,8,16 步生成
                • 07 Video generation + PCM
                • 方法总结
                  • 背景和动机
                    • 训练范式
                      • 工作原理
                        • 1. ODE轨迹分割
                        • 2. 一致性函数定义
                        • 3. 参数化
                        • 4. 阶段一致性蒸馏目标
                        • 5. 采样过程
                        • 6. 引导式蒸馏
                        • 7. 对抗性一致性损失
                      • 优点
                        • 局限性
                        • 应用场景
                          • 1. 高分辨率图像生成
                            • 2. 视频生成
                              • 3. 文本生成图像
                                • 4. 快速生成需求
                                  • 5. 稳定扩散模型
                                    • 6. 研究与开发
                                    • 免费试用
                                    领券
                                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档