首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

腾讯混元再开源,HunyuanCustom 直击 AI 生视频痛点!最低 24G 显存可跑,多主体不飘、不糊、不变脸

腾讯混元在 AI 视频领域再出重磅成果!

近期,腾讯开源全新视频生成框架 ——HunyuanCustom。该框架聚焦 “身份一致性” 与 “多模态输入” 两大核心,精准解决当前 AI 视频生成的关键痛点。

观看完腾讯开源日直播后不难发现,HunyuanCustom 的推出意义重大,是迈向 “实用级 AI 视频” 的重要一步。无论是短片创作,还是电商广告制作,人物形象稳定、内容可控,都是必不可少的基础要求。

先来看 HunyuanCustom 在 “身份一致性” 上的卓越表现:

单主体场景下,只需输入一张男性或女性照片,系统便能在工作、学习、遛狗等不同场景中,始终保持人物脸型与气质的稳定。

多主体场景更为精彩:

例如,实现人物与熊猫对打的画面,熊猫形象清晰、位置稳定;

又如,视频中小哥手持乐事薯片进行讲解,作为 “第二主角” 的薯片,在整个过程中不会消失、扭曲或错位,非常适合广告制作,让甲方也能放心。

人物动作自然度同样出色,像女生奔跑后转身拥抱男生的场景,动作衔接流畅,毫无违和感。

此外,HunyuanCustom 支持多模态驱动。以口播音频驱动的视频片段为例,模特讲解产品时,虽然口型存在些许偏差,但整体效果已十分接近实拍水准。

模型对开发者十分友好,最低 24G 显存即可运行,官方推荐 80GB 显存,既能保证速度,又能提升生成质量,尤其适用于高分辨率视频生成任务。

开源主页:https://hunyuancustom.github.io/

技术详解:HunyuanCustom有哪些黑科技?

HunyuanCustom 是一款多模态视频生成模型,核心目标是确保生成视频中 “人物身份” 的一致性,同时支持文本、图片、音频、视频等多种输入条件。

在技术实现上,该模型首先引入基于 LLaVA 的图文融合模块,强化图像与文本的理解。系统会将文本描述中的 "the man looks like the image..." 里的 “image token” 替换为用户上传的图片,使人物特征更精准地融入文本语义,助力生成身份一致的视频内容。

其次,HunyuanCustom 设计了图像身份增强模块。该模块将输入图像沿时间轴拼接,利用视频模型对时间序列的强大建模能力,确保视频各帧中主体特征的一致性,杜绝 “变脸” 现象。

在支持音频和视频输入方面,HunyuanCustom 针对不同模态设计专属注入机制,且这些机制与身份保持模块相互独立,即便加入音频或视频输入,也不会影响主体身份的稳定性。

最终,HunyuanCustom 实现了对图像、音频和视频条件的解耦式控制,在多模态视频生成任务中展现出巨大潜力。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OVffchLfTfG0INA1meHxlYjw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券