
说起 AI 工具,相比大家现在可以说出来好多,什么 扣子、 Trae、Cursor、Manus、Stable Diffusion、ComfyUI等等。
今天我们专门说说 Stable Diffusion 和 ComfyUI!
我们先从 Stable Diffusion 说起吧!
Stable Diffusion的发展历程与技术原理Stable Diffusion(简称SD)是一种基于深度学习的图像生成技术,近年来在人工智能领域引起了广泛关注。其发展历程可以追溯到德国慕尼黑大学的CompVis研究小组和纽约的RunwayML公司的早期研究。

SD发展历程
随着Stability AI的加入,Stable Diffusion得到了进一步的推动和发展。
该技术采用了 Transformer 架构的特性,通过加噪和去噪的原理生成高质量的图像。
具体来说,Stable Diffusion通过在图像上添加噪声,然后逐步去除噪声,最终生成清晰的图像。这一过程不仅展示了深度学习在图像生成领域的强大能力,也为后续的技术创新奠定了基础。
在Stable Diffusion的发展过程中,多种用户界面(UI)工具应运而生,帮助用户更便捷地使用这一技术。
最早的WebUI工具为Stable Diffusion的开源生态奠定了基础,但其显存消耗较高,限制了其在资源有限环境中的应用。

WebUI
随后,ForgeUI在WebUI的基础上进行了优化,改善了用户交互体验并降低了显存占用,但仍未彻底解决资源消耗问题。

ForgeUI
相比之下,ComfyUI凭借其流水线设计脱颖而出,显存占用表现优异,且具有高度的可定制性和完善的插件体系,成为当前最受欢迎的UI工具之一。

ComfyUI
ComfyUI的优势与生图过程ComfyUI的生图过程涉及多个关键概念和技术模块。

ComfyUI生图过程
首先,Checkpoint 作为训练结果的保存点,直接影响采样模型生成图像的性能和风格。
其次,CLIP Text Encode 利用 CLIP 模型对文本进行编码,从而引导图像的生成方向。
采样过程则通过采样函数基于模型预测逐步更新噪声图像,最终生成清晰的图像。
VAE Decoder 负责将潜在空间表示转换回图像数据空间,而 Latent Image 则提供了初始的“画布”。
UNet作为图像生成的核心计算部分,决定了图像的基本质量和特征。
在Stable Diffusion的生态系统中,涌现了多个具有代表性的模型。
Flux是当时最大的开源文本到图像模型之一,以其高质量的图像生成和丰富的细节表现而闻名。

Flux.1
https://github.com/black-forest-labs/flux
SDXL作为Stable Diffusion的“超大杯”版本,进一步提升了图像生成的效果,字节跳动在其基础上训练的模型也取得了不错的效果。

Stable Diffusion XL
快手的 Kolor 模型则以写实高清的图像生成为特色。此外,Lora 模型作为一种流行的微调策略,因其训练成本低、模型体积小而备受青睐。
Stable Diffusion作为一种先进的图像生成技术,凭借其独特的技术原理和丰富的生态系统,正在改变我们对图像生成的理解和应用。
从最初的WebUI到如今的ComfyUI,从Flux到SDXL,Stable Diffusion的发展历程展示了人工智能在图像生成领域的巨大潜力。
随着更多工具和玩法的涌现,Stable Diffusion 的应用场景将更加广泛,为未来的技术创新提供更多可能性。