前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >开源的Stable Diffusion 3 Medium效果如何?

开源的Stable Diffusion 3 Medium效果如何?

原创
作者头像
算法一只狗
发布2024-08-16 13:09:49
870
发布2024-08-16 13:09:49
举报
文章被收录于专栏:算法一只狗

在2月份的时候,Stable Diffusion 3曾经公布过其强大的能力,由于其在细节生成上更加可控,不少人就一直期待着这个模型的开源。

这不,在大众千呼万唤下,目前网上已经可以下载Stable Diffusion 3 Medium免费开源模型。

具体说来,这次开源的版本属于Stable Diffusion 3 Medium,其具有20亿参数量级,有以下几个特性:

  • 模型变得更大了:从之前的800M参数升级到20亿参数量。这意味着,新的模型能够为用户提供更多扩展性选择,同时生成的图片效果更加惊人。模型变得更大,意味着生成的图片能够提供卓越的细节,实现照片级逼真的输出以及灵活风格的高质量输出。
  • prompt控制更强:能够根据给定的主题词,限定模型生成更加符合条件的图片,比如下图中给定的prompt:“史诗般的动画艺术作品,一位巫师在夜间在山顶上向黑暗的天空施放宇宙咒语,上面写着由彩色能量制成的“stable diffusion 3””

从上图中可以看到,新模型在prompt控制上更上一层楼,氛围感方面也有明显的提升。

  • 使用Diffusion transformer模型结构:这个模型结构可以说和Sora使用的基础模型一致,被称为DiT架构。主要是使用Transformers替换扩散模型中U-Net主干网络。这样做的效果不仅速度更快,而且在不同任务上都取得了很好的效果。
  • 运行时可以高效使用资源:得益于其低显存占用,在标准消费级GPU上运行时无需性能降低,是理想的解决方案。
  • 适合个性化微调:新版本的SD3能够在微调的时候,充分学习小数据集的细节,使其更容易还原数据集的真实细节

Stable Diffusion 3 Medium vs DALL.E

说了这么多Stable Diffusion 3版本的优点,那么在同样prompt下,它的效果和Dall.E有什么区别呢?让我们一起来对比一下。

prompt:狗狗穿外套

两个模型生成的效果都还可以。但是SD3生成的狗狗更为真实,而Dalle.E生成的图片有一点点假。在明亮度方面,Dalle.E在生成动物方面会打光严重,所以个人还是喜欢SD3生成的照片。

prompt:古老废弃药店中三个古董龙形玻璃魔法药水的照片:第一个是蓝色的,标签为“1.5”,第二个是红色的,标签为“SDXL”,第三个是绿色的,标签为“SD3”

在细节控制方面,两个模型都很好的完成了prompt提出的要求。不过Dall.E模型,在生成的一个蓝色瓶子的字体时,有一点点偏差,字体上多了一个“5”。在细节完成度上,SD3还是更胜一筹。

prompt: 烤盘上有形状字母的饼干照片,拼成单词“Fresh from the oven”。照片是在有人工照明的面包房拍摄的。

这两张图的对比更加明显,SD3完美的生成了饼干字体,而Dall.E并没有还原出给出的单词。

综合来看,SD3在文字细节控制和图片的和谐角度来看,都比Dall.E要好很多,但毕竟是把最新技术和一年多以前的技术进行了比较,所以SD3强一点也是正常的。

初体验

目前最快上手的体验方法,可以去到huggingface提供的网站

https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

再来看看几组SD3生成的人物照片:生成的国内国外的人物效果都比较好,人物细节上也相当出色

生成在水中的人物细节效果也很好:

也能很好的hold得住漫画风格和同时生成多种动物:

但有一个问题在于,让SD3生成在草地中的人物时,效果便会大打折扣。往往在人体姿势或者人体结构上有明显的错误:

这是因为,官方把很多不太适宜的训练数据剔除掉,导致目前SD3 medium对人体结构有理解上的问题。

目前如果想要本地进行运行,可以使用“ComfyUI”进行安装。stability AI官方已经做出了一个Webui,叫做StableSwarmUI。

https://github.com/Stability-AI/StableSwarmUI

实测在GPU 4060下,显存占用8G左右。

如果想要更加方便的安装包进行一件部署的,可以在公众号回复“SD3”去到百度网盘上下载。里面已经包含了模型,只需要启动对应工作流即可

尽管SD3 medium模型对在“地上的人物”理解存在偏差,但这并不影响SD3作为一款优秀的文本生成图像模型的事实。SD3在生成图像的精细程度上有了很大的提升。相较于以往的文本生成图像模型,SD3能够生成更加逼真的图像细节,包括纹理、光影、色彩等方面。这使得生成的图像在视觉上更加接近于真实照片,为用户带来更好的体验。

除了精细程度外,SD3在生成效率方面也有显著的提升。相较于传统方法,SD3能够在更短的时间内生成高质量的图像。这使得它在实际应用中更加实用,例如在快速设计、广告创意等领域,SD3可以大大缩短创作周期,提高工作效率。

总之,作为一款优秀的文本生成图像模型,SD3在生成图像的精细程度和生成效率方面都有显著的优势。对此感兴趣的小伙伴,可以亲自尝试使用SD3,感受它带来的惊艳效果。

以上就是本期的所有内容了,我是leo,我们下期再见~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Stable Diffusion 3 Medium vs DALL.E
  • 初体验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档