腾讯混元再开源，HunyuanCustom 直击 AI 生视频痛点！最低 24G 显存可跑，多主体不飘、不糊、不变脸

文章来源：企鹅号 - 诗境

腾讯混元在 AI 视频领域再出重磅成果！

近期，腾讯开源全新视频生成框架 ——HunyuanCustom。该框架聚焦 “身份一致性” 与 “多模态输入” 两大核心，精准解决当前 AI 视频生成的关键痛点。

观看完腾讯开源日直播后不难发现，HunyuanCustom 的推出意义重大，是迈向 “实用级 AI 视频” 的重要一步。无论是短片创作，还是电商广告制作，人物形象稳定、内容可控，都是必不可少的基础要求。

先来看 HunyuanCustom 在 “身份一致性” 上的卓越表现：

单主体场景下，只需输入一张男性或女性照片，系统便能在工作、学习、遛狗等不同场景中，始终保持人物脸型与气质的稳定。

多主体场景更为精彩：

例如，实现人物与熊猫对打的画面，熊猫形象清晰、位置稳定；

又如，视频中小哥手持乐事薯片进行讲解，作为 “第二主角” 的薯片，在整个过程中不会消失、扭曲或错位，非常适合广告制作，让甲方也能放心。

人物动作自然度同样出色，像女生奔跑后转身拥抱男生的场景，动作衔接流畅，毫无违和感。

此外，HunyuanCustom 支持多模态驱动。以口播音频驱动的视频片段为例，模特讲解产品时，虽然口型存在些许偏差，但整体效果已十分接近实拍水准。

模型对开发者十分友好，最低 24G 显存即可运行，官方推荐 80GB 显存，既能保证速度，又能提升生成质量，尤其适用于高分辨率视频生成任务。

开源主页：https://hunyuancustom.github.io/

技术详解：HunyuanCustom有哪些黑科技？

HunyuanCustom 是一款多模态视频生成模型，核心目标是确保生成视频中 “人物身份” 的一致性，同时支持文本、图片、音频、视频等多种输入条件。

在技术实现上，该模型首先引入基于 LLaVA 的图文融合模块，强化图像与文本的理解。系统会将文本描述中的 "the man looks like the image..." 里的 “image token” 替换为用户上传的图片，使人物特征更精准地融入文本语义，助力生成身份一致的视频内容。

其次，HunyuanCustom 设计了图像身份增强模块。该模块将输入图像沿时间轴拼接，利用视频模型对时间序列的强大建模能力，确保视频各帧中主体特征的一致性，杜绝 “变脸” 现象。

在支持音频和视频输入方面，HunyuanCustom 针对不同模态设计专属注入机制，且这些机制与身份保持模块相互独立，即便加入音频或视频输入，也不会影响主体身份的稳定性。

最终，HunyuanCustom 实现了对图像、音频和视频条件的解耦式控制，在多模态视频生成任务中展现出巨大潜力。

相关快讯