首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

重磅!Stable Diffusion 3图像生成模型发布,使用Sora相同架构

Sora在连续刷屏一周之后,昨晚,Stability AI正式发布了Stable Diffusion 3的早期预览版,并宣称这是他们迄今为止最强大的文本生成图像模型,在多主题提示、图像质量和文本渲染能力方面都有了显著的提升。

与之前的版本相比,Stable Diffusion 3最引人注目的改进之一是其对于生成图像中文字的精准度。这也是为什么官方发布的许多示例图都包含了文字展示:

这次更新可以说,Stable Diffusion 3在语言理解方面取得了巨大的进步。

同时,Stability AI官方表示,Stable Diffusion 3是一个系列模型,其参数从800M到8B不等,提供了多样化的可扩展性和图像质量选项,以满足不同用户的创意需求。

换句话说,Stable Diffusion 3未来能够在多种设备上运行,大大降低了用户使用AI模型的硬件门槛。

目前,Stable Diffusion 3已经开放了候补名单,想要第一时间体验的用户可以前往申请访问权限:

https://stability.ai/stablediffusion3

需要注意的是,Stable Diffusion 3尚未全面开放,技术报告和权重也没有公布。本文中展示的图片和提示词,均来自于Stability AI官方账号及其团队成员发布在社交媒体上的帖子。

其他文生图模型还有机会吗?

在文生图领域,Stable Diffusion的主要竞争对手无疑是Midjourney和DALL-E。下面我们可以用相同的提示词来进行实测,看看各家目前的表现如何(Midjourney使用的是V6模型,DALL-E使用的是集成在ChatGPT4中的DALL-E 3)。

1.文字渲染能力。

提示词:一位巫师在夜晚的山顶向黑暗的天空施放宇宙咒语,咒语由彩色能量组成,其中包括“Stable Diffusion 3”。

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy.

由Stable Diffusion3生成

由DALL·E 3生成

由Midjourney生成

这组对比中,DALL-E 3没有按照提示词要求在图中生成完整的文字,Midjourney则通过调整参数,成功生成了一张带有完整文字的图片。

再来看一组写实图片:

提示词:厨房桌子上放着一块绣花布,上面写着“晚安”和一只绣着的小老虎。布旁边有一支点燃的蜡烛。灯光昏暗而引人注目。

Prompt: Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.

由Stable Diffusion3生成

由DALL·E 3生成

由Midjourney生成

这次DALL-E 3生成的图,虽然看起来有模有样,但是“good”单词中多了一个“o”,整体字体也不够统一。

Midjourney则生成了一些鬼画符,直接画了一只真实的老虎,与提示词的要求有所偏离。

2.多主题提示能力。

这样的提示包括多种元素,例如宇航员、穿着芭蕾舞裙的小猪、戴着礼帽的知更鸟等。

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

由Stable Diffusion3生成

Stable Diffusion 3成功地包含了所有这些元素,并且在图像的左下角还有一个“Stable Diffusion”的水印。

相比之下,DALL-E 3生成了一张非常炸裂的图,展示了其缝合怪的能力。

由DALL·E 3生成

而Midjourney则更像是末日风格,虽然包含了所有元素,但是有些元素的位置或形态与提示词不完全匹配。

由Midjourney生成

3.超清特写。

这样的提示要求生成的图片是工作室摄影特写,展示一只变色龙在黑色背景上。

提示词:工作室摄影特写,一条变色龙在黑色背景上。

Prompt: studio photograph closeup of a chameleon over a black background.

由Stable Diffusion3生成

那么,这类型图上Midjourney和DALL·E 3表现如何呢?

由DALL·E 3生成

由Midjourney生成

这类图像,DALL-E 3和Midjourney的表现都不错,DALL-E 3的分辨率通常为1024x1024,而Midjourney的分辨率可达到2048x2048的2K。

截至目前,Stability AI尚未透露Stable Diffusion 3在图像质量上的具体优化程度,但从官方的示例图中可以看出,在分辨率和色彩饱和度上都有所提升。

4、其他示例

教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”

一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。

波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。

与Sora同源架构

尽管Stable Diffusion 3还未正式发布,但根据Stability AI CEO的回复,我们可以简单理解为其采用了与Sora相似的diffusion transformer架构,具备了类似的“理解和模拟物理现实”的能力。

总的来说,各家的竞争让AIGC领域变得更加精彩,预计今年我们还将见证更多令人兴奋的时刻。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ombv6vN35m3pIzpj3rA3tVfg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券