Stable Diffusion 3.0优化了什么？

文章来源：企鹅号 - 算法一只狗

自从Stable Diffusion模型发布以来，“AI文本图片生成”真正的变成普通人也能使用的技术。

同时各种国内外AI绘图软件，也不断频繁更新，像比较出名的文心一格，盗梦师，6open等生成工具，生成的图片已经达到了以假乱真的地步。想看详细介绍的，可以回看这篇文章：

在大众千呼万唤下，Stable Diffusion 3.0终于来了，并且开放了等待名单，感兴趣的可以去这个网站下申请：

https://stability.ai/stablediffusion3

随着OpenAI发布的Sora，引发AI艺术圈的一阵狂欢。Stable Diffusion新版本3.0的到来，使得文生图领域又一次出圈。为了让自己更上AI技术的步伐，一下班就马不停蹄到它官网上看看更新了什么内容。

具体说来，新版本的Stable Diffusion模型主要有以下几个优化的地方：

模型变得更大了：从之前的800M参数升级到8亿参数量。这意味着，新的模型能够为用户提供更多扩展性选择，同时生成的图片效果更加惊人

prompt控制更强：能够根据给定的主题词，限定模型生成更加符合条件的图片，比如下图中给定的prompt：“史诗般的动画艺术作品，一位巫师在夜间在山顶上向黑暗的天空施放宇宙咒语，上面写着由彩色能量制成的“stable diffusion 3””

从上图中可以看到，新模型在prompt控制上更上一层楼，氛围感方面也有明显的提升。

使用Diffusion transformer模型结构：这个模型结构可以说和Sora使用的基础模型一致，被称为DiT架构。主要是使用Transformers替换扩散模型中U-Net主干网络。这样做的效果不仅速度更快，而且在不同任务上都取得了很好的效果。

在这个节点上，OpenAI和Stable Diffusion都不约而同的用到了这个DIT模型，说明这个模型可能真的是未来图像和视频生成领域的一个主流框架。

Stable Diffusion 3 vs DALL.E

说了这么多Stable Diffusion 3版本的优点，那么在同样prompt下，它的效果和Dall.E有什么区别呢？让我们一起来对比一下。

提示词：教室桌子上有一个电影氛围感的红苹果照片，黑板上用粉笔写着“要么做大，要么回家”

从这两幅图的观感上看，Stable Diffusion生成的图片偏向于真实。而且在提示词的理解上，明显要比Dall.E好很多。这是因为本来我们要的是让模型生成“电影氛围感的红苹果照片'，但是Dall.E直接把它理解成电影镜头了，因此在照片旁边整了一个镜头，偏离了本来的意思。

提示词：一幅宇航员骑着一头穿着芭蕾舞短裙、撑着粉色雨伞的猪的画，猪旁边的地上是一只戴着礼帽的知更鸟，角落里写着“stable diffusion”字样

两个模型都画出了提示词的基本意思，但是Dall.E有画蛇添足了，画了两只鸟，一只在地上，一只在猪的身上。因此从可控性来看，SD3效果会更好一点。

提示词：银河下拍摄的树木，月亮和暮光照射在山谷上。满月高高挂在天空，暮色仍清晰可见

这两幅图片，明显能看的出来虽然都画了银河，但是SD3很好的把暮色这个关键词融合到天空中，使得整幅画面更加和谐，对比来看，Dall.E融合的效果逊色了一些。

综合来看，SD3确实在文字控制和图片的和谐角度来看，都比Dall.E要好很多，但毕竟是把最新技术和一年多以前的技术进行了比较，所以SD3强一点也是正常的。

DiT模型的一些细节

SD3最新的技术报告还没有发出来，但是已经说明了是基于DiTs模型架构，其具体的架构如下。

Patch化：类似于VIT的操作，DiT的输入也是要把图片转化成Patch模型，然后输入到其DiT Block架构中

DiT模块设计中主要包含了三个部分：Cross-attention模块、Adaptive layer norm（adaLN）模块、adaLN-zero模块。其中Cross-attention模块本质上就是原来扩散模型中U-Net结构，只是利用了attention机制进行了替换

从实现效果看，模型越大、patch size越小，生成的图片质量越好：

总结

近期火爆全网的Sora和Stable Diffusion 3，都不约而同的基于DiT架构实现视频生成和图片生成，说明这个结合了扩散模型和Transformer的架构潜力巨大。相信今年会越来越多人基于DiT，在文生图或者文生视频领域继续深耕，给我们创造出更加好用方便的工具出来。

而随着Stable Diffusion 3的发布，AI在生成图片的质量和文字的控制上又前进了一大步。作为 Stable Diffusion 的用户，给人直观的感受是，Stable Diffusion 3解决了过去存在的一些不足问题，并且使得图片更加真实，更能理解用户的需求。相信用不了多久，图片生成技术将会更加符合人们的直观感受。

发表于: 2024-02-292024-02-29 08:30:00
原文链接：https://page.om.qq.com/page/O1mUu1S1FHjFg_Q64-_3Z5yw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Stable Diffusion 3.0优化了什么？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐