前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SDXL 1.0 介绍和优缺点总结

SDXL 1.0 介绍和优缺点总结

作者头像
deephub
发布2023-08-30 09:18:44
6800
发布2023-08-30 09:18:44
举报
文章被收录于专栏:DeepHub IMBA

2023年7月26日:Stability. AI 发布SDXL 1.0,这是对其生成模型的又一次重大更新,带来了突破性的变化。

SDXL 1.0包括两种不同的模型:

sdxml -base-1.0:生成1024 x 1024图像的基本文本到图像模型。基本模型使用OpenCLIP-ViT/G和CLIP-ViT/L进行文本编码。

sdxml -refiner-1.0:一个图像到图像的模型,用于细化基本模型的潜在输出,可以生成更高保真度的图像。细化模型只使用OpenCLIP-ViT/G模型。

SDXL 1.0的refiner是基于OpenCLIP-ViT/G的具有6.6B参数模是目前可用的最强大的开放访问图像模型之一。

base模型在第一阶段创建(有噪声的)结果,然后由专门为最后去噪步骤设计的refiner模型进一步处理(基本模型也可以作为一个模块单独使用),以下是一个官方的样例

这种两阶段架构可以在不牺牲速度或要求过多计算资源的情况下实现更高质量图像的生成。在具有8GB VRAM的消费类gpu上SDXL 1.0应该运行良好。

本文不打算介绍更多的模型相关信息,只介绍一些大家可能忽略的问题:

图像质量

默认情况下,SDXL 1.0可以本地生成1024 x 1024的图像。仅这一点就比以前的版本有了很大的改进。SDXL 1.0特别适合鲜艳和准确的颜色。现在还可以生成图像与适当的照明,阴影和对比度,例如:

代码语言:javascript
复制
 Prompt:
 anime artwork An astronaut riding a white horse . anime style, key visual, vibrant, studio anime, highly detailed
 
 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

除此之外,内容主体通常被放置在图像的中心,使其成为主要焦点。对于初学者来说,这个功能会更加实用,因为生成的图像可以直接使用了。

SDXL 1.0的基础模型要比SD 1.5和SD 2.1更好,特别是在包含艺术风格的提示时。当以<artist name>提示时,图像的构图基本保持一致,而艺术风格则有所不同。例如:

代码语言:javascript
复制
 Prompt:
 An astronaut riding a white horse, art by Vincent van Gogh
 
 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

文本编码器和提示

SDXL 1.0现在使用两种不同的文本编码器对输入提示符进行编码。根据他们的论文,该方法已被证明是有效的模型来理解两个不同概念之间的差异。例如:

The Red Square ——一个著名的地点,red square-特定颜色的形状

SDXL 1.0现在只需要几个单词就可以生成高质量的文本。通过调用某些限定词和长提示来获得美观图像的日子已经过去了。

但是CLIP的77个令牌限制仍然是包含在SDXL 1.0中。

高级控制

组合控件(如T2I和ControlNet)目前还不支持,但是官网已经确定正在开发中。在未来用户应该能够在工作流程中无缝地使用这些功能。

水印

SDXL 1.0内置不可见水印功能。如果输入不正确(接受BGR而不是RGB作为输入),水印特性有时会导致不想要的图像伪影。

在使用某些调度器和VAE (0.9 vs 1.0)时,生成的图像中可能会产生问题。但是其中一些问题的原因是已知,所以将来可能会修复。

另外水印这个事会让鉴别更加简单,依靠AI生成内容的行业可能会有很大的影响。

生态

由于SDXL 1.0基于不同的体系结构,所以现有插件必须重新训练和重新集成他们的工作。因此,必须重新构建整个生态系统,这需要大量的时间和资源。

内存消耗

SDXL 1.0的新架构由一个3.5B参数的基本文本到图像模型和一个6.6B参数的图像到图像精细模型组成。虽然8G的GPU可以使用但是相比以前的模型还是需要更高的内存(VRAM)需要图像生成和微调,更多的参数也意味着更长的推理时间

没有标准流程

《Stable Diffusion》的主要问题之一是没有关于正确操作方式的标准。大多数流行的框架和web都有自己的实现,不能跨不同的平台/框架使用。

所以对于新手来说,在自己的工作中适应和使用它是非常复杂的事情。大多数情况下,相同的提示符和设置会在不同的平台/框架上生成两个不同的图像。

陡峭的学习曲线

SD的学习曲线对于普通用户来说是相当陡峭的,特别是对于没有任何编程知识的美工。并且每次个更新后,以前有效的相同提示符现在不再有效。用户必须重新学习构建提示符的新方法,以及如何使用新更新的工具,这也是一个很大的问题。

结论

Stable Diffusion XL 1.0的发布标志着生成人工智能领域的新时代。这也证明了开源项目对社区和背后的公司都有好处。在短短几个月的时间里,它们取得了很大的进步,未来一定会达到一个新的高度。

并且目前看到的好消息是 AUTOMATIC1111的stable-diffusion-webui已经可以支持sdxl1.0了。

作者:Ng Wai Foong

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 图像质量
  • 文本编码器和提示
  • 高级控制
  • 水印
  • 生态
  • 内存消耗
  • 没有标准流程
  • 陡峭的学习曲线
  • 结论
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档