首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Stable Diffusion 3.0优化了什么?

自从Stable Diffusion模型发布以来,“AI文本图片生成”真正的变成普通人也能使用的技术。

同时各种国内外AI绘图软件,也不断频繁更新,像比较出名的文心一格,盗梦师,6open等生成工具,生成的图片已经达到了以假乱真的地步。想看详细介绍的,可以回看这篇文章:

在大众千呼万唤下,Stable Diffusion 3.0终于来了,并且开放了等待名单,感兴趣的可以去这个网站下申请:

https://stability.ai/stablediffusion3

随着OpenAI发布的Sora,引发AI艺术圈的一阵狂欢。Stable Diffusion新版本3.0的到来,使得文生图领域又一次出圈。为了让自己更上AI技术的步伐,一下班就马不停蹄到它官网上看看更新了什么内容。

具体说来,新版本的Stable Diffusion模型主要有以下几个优化的地方:

模型变得更大了:从之前的800M参数升级到8亿参数量。这意味着,新的模型能够为用户提供更多扩展性选择,同时生成的图片效果更加惊人

prompt控制更强:能够根据给定的主题词,限定模型生成更加符合条件的图片,比如下图中给定的prompt:“史诗般的动画艺术作品,一位巫师在夜间在山顶上向黑暗的天空施放宇宙咒语,上面写着由彩色能量制成的“stable diffusion 3””

从上图中可以看到,新模型在prompt控制上更上一层楼,氛围感方面也有明显的提升。

使用Diffusion transformer模型结构:这个模型结构可以说和Sora使用的基础模型一致,被称为DiT架构。主要是使用Transformers替换扩散模型中U-Net主干网络。这样做的效果不仅速度更快,而且在不同任务上都取得了很好的效果。

在这个节点上,OpenAI和Stable Diffusion都不约而同的用到了这个DIT模型,说明这个模型可能真的是未来图像和视频生成领域的一个主流框架。

Stable Diffusion 3 vs DALL.E

说了这么多Stable Diffusion 3版本的优点,那么在同样prompt下,它的效果和Dall.E有什么区别呢?让我们一起来对比一下。

提示词:教室桌子上有一个电影氛围感的红苹果照片,黑板上用粉笔写着“要么做大,要么回家”

从这两幅图的观感上看,Stable Diffusion生成的图片偏向于真实。而且在提示词的理解上,明显要比Dall.E好很多。这是因为本来我们要的是让模型生成“电影氛围感的红苹果照片',但是Dall.E直接把它理解成电影镜头了,因此在照片旁边整了一个镜头,偏离了本来的意思。

提示词:一幅宇航员骑着一头穿着芭蕾舞短裙、撑着粉色雨伞的猪的画,猪旁边的地上是一只戴着礼帽的知更鸟,角落里写着“stable diffusion”字样

两个模型都画出了提示词的基本意思,但是Dall.E有画蛇添足了,画了两只鸟,一只在地上,一只在猪的身上。因此从可控性来看,SD3效果会更好一点。

提示词:银河下拍摄的树木,月亮和暮光照射在山谷上。满月高高挂在天空,暮色仍清晰可见

这两幅图片,明显能看的出来虽然都画了银河,但是SD3很好的把暮色这个关键词融合到天空中,使得整幅画面更加和谐,对比来看,Dall.E融合的效果逊色了一些。

综合来看,SD3确实在文字控制和图片的和谐角度来看,都比Dall.E要好很多,但毕竟是把最新技术和一年多以前的技术进行了比较,所以SD3强一点也是正常的。

DiT模型的一些细节

SD3最新的技术报告还没有发出来,但是已经说明了是基于DiTs模型架构,其具体的架构如下。

Patch化:类似于VIT的操作,DiT的输入也是要把图片转化成Patch模型,然后输入到其DiT Block架构中

DiT模块设计中主要包含了三个部分:Cross-attention模块、Adaptive layer norm(adaLN)模块、adaLN-zero模块。其中Cross-attention模块本质上就是原来扩散模型中U-Net结构,只是利用了attention机制进行了替换

从实现效果看,模型越大、patch size越小,生成的图片质量越好:

总结

近期火爆全网的Sora和Stable Diffusion 3,都不约而同的基于DiT架构实现视频生成和图片生成,说明这个结合了扩散模型和Transformer的架构潜力巨大。相信今年会越来越多人基于DiT,在文生图或者文生视频领域继续深耕,给我们创造出更加好用方便的工具出来。

而随着Stable Diffusion 3的发布,AI在生成图片的质量和文字的控制上又前进了一大步。作为 Stable Diffusion 的用户,给人直观的感受是,Stable Diffusion 3解决了过去存在的一些不足问题,并且使得图片更加真实,更能理解用户的需求。相信用不了多久,图片生成技术将会更加符合人们的直观感受。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1mUu1S1FHjFg_Q64-_3Z5yw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券