首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

PixArt-Sigma:华为发布的AI生图模型! 可直出4K图像!

这个由华为诺亚方舟实验室联合多个研究机构共同开发的项目,推出了一款名为PixArt-Σ的扩散变换器模型(DiT),它能够直接根据文本提示生成高达4K分辨率的图像。

与之前的模型PixArt-α相比,PixArt-Σ在图像保真度和文本提示对齐方面都有了显著提升。它的训练效率也是一个亮点,通过从基础预训练开始,逐步引入更高质量的数据,实现了从“弱”到“强”的模型进化。

两大进步:

高质量训练数据:引入了更高质量的图像数据,配合更精确和详细的图像标题。

高效的令牌压缩:在DiT框架内提出了一个新的注意力模块,能够压缩键和值,显著提高效率,从而支持超高分辨率图像的生成。

这些改进使得PixArt-Σ在模型大小(0.6B参数)上远小于现有的文本到图像扩散模型,如SDXL(2.6B参数)和SD Cascade(5.1B参数),同时在图像质量和用户提示遵循能力上都有了显著提升。此外,PixArt-Σ生成4K图像的能力,为电影和游戏等行业的高质量视觉内容制作提供了强大支持。

项目地址:

https://pixart-alpha.github.io/PixArt-sigma-project/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OWjKz72-n4Q-4MI2aEdDUWiA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券