文章/答案/技术大牛

发布

重磅！Stable Diffusion 3图像生成模型发布，使用Sora相同架构

文章来源：企鹅号 - 凯哥新发现

“Sora在连续刷屏一周之后，昨晚，Stability AI正式发布了Stable Diffusion 3的早期预览版，并宣称这是他们迄今为止最强大的文本生成图像模型，在多主题提示、图像质量和文本渲染能力方面都有了显著的提升。”

与之前的版本相比，Stable Diffusion 3最引人注目的改进之一是其对于生成图像中文字的精准度。这也是为什么官方发布的许多示例图都包含了文字展示：

这次更新可以说，Stable Diffusion 3在语言理解方面取得了巨大的进步。

同时，Stability AI官方表示，Stable Diffusion 3是一个系列模型，其参数从800M到8B不等，提供了多样化的可扩展性和图像质量选项，以满足不同用户的创意需求。

换句话说，Stable Diffusion 3未来能够在多种设备上运行，大大降低了用户使用AI模型的硬件门槛。

目前，Stable Diffusion 3已经开放了候补名单，想要第一时间体验的用户可以前往申请访问权限：

https://stability.ai/stablediffusion3

需要注意的是，Stable Diffusion 3尚未全面开放，技术报告和权重也没有公布。本文中展示的图片和提示词，均来自于Stability AI官方账号及其团队成员发布在社交媒体上的帖子。

其他文生图模型还有机会吗？

在文生图领域，Stable Diffusion的主要竞争对手无疑是Midjourney和DALL-E。下面我们可以用相同的提示词来进行实测，看看各家目前的表现如何（Midjourney使用的是V6模型，DALL-E使用的是集成在ChatGPT4中的DALL-E 3）。

1.文字渲染能力。

提示词：一位巫师在夜晚的山顶向黑暗的天空施放宇宙咒语，咒语由彩色能量组成，其中包括“Stable Diffusion 3”。

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy.

由Stable Diffusion3生成

由DALL·E 3生成

由Midjourney生成

这组对比中，DALL-E 3没有按照提示词要求在图中生成完整的文字，Midjourney则通过调整参数，成功生成了一张带有完整文字的图片。

再来看一组写实图片：

提示词：厨房桌子上放着一块绣花布，上面写着“晚安”和一只绣着的小老虎。布旁边有一支点燃的蜡烛。灯光昏暗而引人注目。

Prompt: Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.

由Stable Diffusion3生成

由DALL·E 3生成

由Midjourney生成

这次DALL-E 3生成的图，虽然看起来有模有样，但是“good”单词中多了一个“o”，整体字体也不够统一。

Midjourney则生成了一些鬼画符，直接画了一只真实的老虎，与提示词的要求有所偏离。

2.多主题提示能力。

这样的提示包括多种元素，例如宇航员、穿着芭蕾舞裙的小猪、戴着礼帽的知更鸟等。

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

由Stable Diffusion3生成

Stable Diffusion 3成功地包含了所有这些元素，并且在图像的左下角还有一个“Stable Diffusion”的水印。

相比之下，DALL-E 3生成了一张非常炸裂的图，展示了其缝合怪的能力。

由DALL·E 3生成

而Midjourney则更像是末日风格，虽然包含了所有元素，但是有些元素的位置或形态与提示词不完全匹配。

由Midjourney生成

3.超清特写。

这样的提示要求生成的图片是工作室摄影特写，展示一只变色龙在黑色背景上。

提示词：工作室摄影特写，一条变色龙在黑色背景上。

Prompt: studio photograph closeup of a chameleon over a black background.

由Stable Diffusion3生成

那么，这类型图上Midjourney和DALL·E 3表现如何呢？

由DALL·E 3生成

由Midjourney生成

这类图像，DALL-E 3和Midjourney的表现都不错，DALL-E 3的分辨率通常为1024x1024，而Midjourney的分辨率可达到2048x2048的2K。

截至目前，Stability AI尚未透露Stable Diffusion 3在图像质量上的具体优化程度，但从官方的示例图中可以看出，在分辨率和色彩饱和度上都有所提升。

4、其他示例

教室桌子上有一个红苹果，电影风格，背景的黑板上用粉笔写着“要么做大，要么回家”

一辆跑车的夜间照片，侧面写有“SD3”字样，汽车在赛道上高速行驶，巨大的路标上写着“更快”的文字。

波浪冲击苏格兰灯塔的鱼眼镜头照片，黑色波浪。

与Sora同源架构

尽管Stable Diffusion 3还未正式发布，但根据Stability AI CEO的回复，我们可以简单理解为其采用了与Sora相似的diffusion transformer架构，具备了类似的“理解和模拟物理现实”的能力。

总的来说，各家的竞争让AIGC领域变得更加精彩，预计今年我们还将见证更多令人兴奋的时刻。

发表于: 2024-02-232024-02-23 20:01:09
原文链接：https://page.om.qq.com/page/Ombv6vN35m3pIzpj3rA3tVfg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

重磅！Stable Diffusion 3图像生成模型发布，使用Sora相同架构

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐