前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一张图训练出你的专属混元大模型

一张图训练出你的专属混元大模型

作者头像
小腾资讯君
发布2024-06-21 17:50:26
1910
发布2024-06-21 17:50:26

腾讯混元文生图大模型在开源社区的热度已经持续了一个多月。

经常有开发者问我们:

怎样让模型更懂我?

怎样更精准控制出图?

能不能训练我的专属模型?

别急,它来了:

刚刚,我们全面开源了腾讯混元文生图大模型(简称混元DiT)的训练代码、混元DiT LoRA小规模数据集训练方案和可控制插件Control Net。

图片
图片

全球的企业与个人开发者,都可基于训练代码快速构建模型应用,(最少)仅需一张图就能训练出个人专属模型,同时让模型变得更“听话”,文生图不再像“开盲盒”。

//文生图“秘方”公开

如果把大模型看成一道菜,训练代码就相当于“菜谱”和“秘方”。

公开后,开发者可以更全面了解模型的训练方法和过程。直接修改和优化混元DiT的训练代码,更快速构建模型应用程序。

作为中文原生模型,开发者在精调时不用将数据翻译成英文,直接使用中文数据与标签就能搞定。

//一张图创作专属模型

在文生图模型精调时,全量微调一般需要数量较多数据集。LoRA是个“好工具”,可以将大幅降低训练需要的数据量。

通过混元DiT专属LoRA插件,(最少)仅需一张图就能训练出自己想要的专属模型。

训练参数减少,可以极大降低对内存的需求,普通开发者也能完成模型精调。 

口说无凭,有图有真相:

图片
图片

导入四张青花瓷图片与提示词,即可创建一个“青花瓷”生成模型

用户在新模型输入简单提示词,即可生成想要的青花瓷图像 

//生图不再“开盲盒”

通过ControlNet可控制插件,用户可以在模型预训练阶段就“提前对齐”(设定条件),精准控制输出的结果。好比给大模型画出了“草图”,让文生图不再像“开盲盒”。

混元DiT提供了边缘(canny)、深度(depth)、人体姿势(pose)等三个开发者拿来即用的ControlNet模型,用线稿就能快速、精准生成全彩图、等深结构图和同结构人像等完整图片。

图片
图片

混元DiT也开源了相关训练方案,开发者可以根据需求自行设置“条件”,为大模型画出更满足自己需求的“草图”。

今年5月,我们开源了业内首个中文原生的DiT架构文生图模型,并在 Hugging Face 平台及 Github 上发布,企业与个人开发者都能免费商用。

不久前,混元DiT发布专属加速库,令文生图时间缩短了75%。基于ComfyUI的图形化界面,开发者仅用三行代码就能调用混元DiT,大幅降低了使用门槛。

开源仅一个月,混元DiT模型的Github Star数已达2.4k,是最受欢迎的开源DiT模型之一。

在“智能涌现”的时代,我们会持续完善和优化混元DiT的开源组件,与行业共建下一代视觉生成开源生态。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯混元大模型
腾讯混元大模型(Tencent Hunyuan)是由腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档