前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >牛X 腾讯开源首个Sora同架构混元文生图大模型

牛X 腾讯开源首个Sora同架构混元文生图大模型

原创
作者头像
疯狂的KK
发布2024-05-16 09:58:16
1810
发布2024-05-16 09:58:16
举报
文章被收录于专栏:AI绘画Java项目实战AI绘画

各位有商业想法的可以抢一杯羹了,这应该是首个开源的Sora同架构DiT架构文生图开源模型!!!!从参数量上远超开源的Stable Diffusion模型,这远比某些开源代码仓库为空的公司强多了,而细数下来,腾讯在T2I领域开源的产品多达几十种, TencentAIlab

pothomaker,Ipadpter ,Faceid ,faceid — plus,ID-Animator,ESRGAN等都出自腾讯开源  AI lab 

图片
图片

    腾讯的混元文生图大模型是业内首个中文原生的DiT架构文生图开源模型。DiT(Diffusion Transformer)架构是一种基于Transformer的扩散模型,它具备强大的可扩展性,能够在参数量增加的情况下,进一步提升视觉模型生成效果及效率。这一模型的参数量达到了15亿,支持中英文双语输入及理解,这意味着它不仅能够处理中文内容,还能无缝对接国际化的应用场景。

,时长01:14

图片
图片

温馨提示公众号已开启留言功能哦,后台回复有彩蛋,开源项目地址和huggingface地址请回复【腾讯】获取

往期精彩回顾

KK长这样子你信吗?

咦惹~好丑的AI黏土风咋就火了?Comfyui工作流分享

Comfyui-一键丰胸这也太大了吧?LSP勿进

免费内测还开源!!AI图片无损放大16倍SD放大不香了

图片
图片
图片
图片
图片
图片

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,共建中文文生图开源生态,加速大模型行业发展。”

图片
图片
图片
图片
图片
图片

架构详情

Hunyuan-DiT是潜空间中的扩散模型,如下图所示。在潜在扩散模型之后,我们使用预训练的变分自编码器(VAE)将图像压缩到低维潜在空间中,并训练扩散模型来学习扩散模型的数据分布。我们的扩散模型是用变压器参数化的。为了对文本提示进行编码,我们利用了预先训练的双语(英文和中文)CLIP和多语言T5编码器的组合。

图片
图片

理解自然语言指令并与用户进行多轮交互非常重要 文本到图像系统。它可以帮助构建一个动态和迭代的创建过程,将用户的想法变为现实 一步一步。在本节中,我们将详细介绍如何赋予 Hunyuan-DiT 执行多轮的能力 对话和图像生成。我们训练MLLM了解多轮用户对话 并输出新的文本提示以生成图像

图片
图片

与现有产品对比

图片
图片
  • Chinese Elements
图片
图片
  • Long Text Input
图片
图片

下表显示了运行模型的要求(TensorRT 版本即将更新):

型号

张量RT

批量大小

GPU 内存

显卡

DialogGen + 浑源-DiT

1

32克

V100/A100系列

浑源-DiT

1

11克

V100/A100系列

  • 需要支持 CUDA 的 NVIDIA GPU。
    • 我们已经测试了 V100 和 A100 GPU。
    • 最低:所需的最小 GPU 内存为 11GB。
    • 推荐:我们建议使用具有 32GB 内存的 GPU,以获得更好的生成质量。
  • 测试操作系统:Linux

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • pothomaker,Ipadpter ,Faceid ,faceid — plus,ID-Animator,ESRGAN等都出自腾讯开源  AI lab 
相关产品与服务
大模型图像创作引擎
大模型图像创作引擎是一款提供 AI 图像生成与处理能力的 API 技术服务,可以结合输入的文本或图片智能创作出与输入相关的图像内容,具有更强大的中文理解能力、更多样化的风格选择,更好支持中文场景下的建筑风景生成、古诗词理解、水墨剪纸等中国元素风格生成,以及各种动漫、游戏风格的高精度图像生成和风格转换,为高质量的内容创作、内容运营提供技术支持。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档