首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

类Sora架构加持文生图:Stable Diffusion 3.0图像更逼真,可显示指定文字

多知网2月23日消息,Stability AI今天发布了其 Stable Diffusion 3.0下一代旗舰文本到图像生成 AI 模型的早期预览版,在图像质量、多个对象、拼写能力方面都有显著提高,它采用了与Sora模型类似的架构。

根据介绍,Stable Diffusion 3.0旨在提供改进来自多主题提示的图像质量和生成图像有更好的性能,它还将提供比之前的Stable Diffusion更好的文字渲染,从而使生成的图像内部的拼写更加准确和一致。

(Stable Diffusion3生成的图片,文字清晰可见)

Stability AI的首席执行官Emad Mostaque提到,Stable Diffusion 3 采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近推出的Sora模型采用的架构相似。

(Stable Diffusion3生成的图片,图像质量高)

在过去的一年里,Stability AI一直在稳步迭代并发布多个图像模型,每个模型的复杂程度和质量都在不断提高。7月份发布的 SDXL极大地改进了Stable Diffusion 的基础模型,现在该公司正在寻求进一步的改进。

对于文生图模型来说,根据Prompt让生成的图像中带有指定的文字一直是个难题,Stable Diffusion 3.0则能很好的解决这个问题。

(Stable Diffusion3生成的图片,文字清晰可见)

Stable Diffusion 3.0的模型参数在以800M 到 8B之间。

根据介绍,现在用户已经可以在加入候补名单,申请Stable Diffusion 3.0的访问权限了:https://stability.ai/stablediffusion3

实际上,Stability AI在文生视频上也在发力,此前已经推出Stable Video,目前已经开放公测。

刚刚第一季度,AIGC赛道已经热闹非凡,就文生图来说还有Midjourney及OpenAI旗下的DALL-E 3,个个身怀绝技。(多知网 Penny)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ohc-D1zgJg2w5b80Wha4aLRQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券