告别“面瘫”虚拟人！腾讯开源多角色表情同步黑科技，1分钟生成电影级对话视频

AI大眼萌

发布于 2025-08-27 14:24:50

4990

“当虚拟主播的嘴角随情歌旋律自然上扬，辩论赛双人角色因观点冲突挑眉冷笑——这些曾需要百万级动捕设备的特效，如今一段音频+几张照片即可生成。” AI大眼萌今天带各位了解一下腾讯AI Lab最新开源的HunyuanVideo-Avatar模型，它正在掀起数字人生产的效率革命。

官方宣传视频

痛点直击：为什么传统数字人总像“面瘫”？

三大行业顽疾

1.动作失真：转头时五官扭曲，被调侃为“恐怖谷效应放大器”

2.情感错位：悲伤台词配微笑脸，用户直呼“出戏”

3.交互割裂：多角色视频需逐人制作再拼接，效率低下

某MCN机构吐槽：“每月20万外包费，产出视频仍被粉丝骂‘像AI鬼畜’。”

技术核爆：三大模块拆解（配架构图）

▶ 模块一：角色图像注入器（根治“脸崩”）

传统方案：将角色特征像“贴纸”叠加到视频 → 动态时错位
腾讯方案：直接向神经网络“注射”角色DNA → 360°转头发型不乱，微表情肌肉运动完全复刻真人
效果：身份一致性指标↑45%，极限动作通过率100%

▶ 模块二：音频情感迁移器（终结“面瘫”）

核心技术：
用Whisper解析音频中的愤怒/惊喜/嘲讽等32种情绪
从参考图提取表情风格（如“皮笑肉不笑”）
案例：输入“阴阳怪气”的台词，输出角色挑眉+单边嘴角上翘的微表情

▶ 模块三：面部音频适配器（解锁多人实时互动）

传统方案	腾讯方案
多人需单独渲染	同步生成交互反应
角色间动作穿模	空间隔离杜绝干扰
典型场景：辩论赛角色反驳时翻白眼，对方同步冷笑

性能炸场：实测数据曝光

在腾讯构建的WildTest真实场景测试集（含灯光变化/遮挡物/方言）：

某游戏公司实测：NPC对话视频制作成本从2万元/分钟降至400元

落地场景：这些行业将被颠覆

1.直播电商：方言虚拟主播矩阵

案例：某服装品牌用10个方言数字人24小时试穿讲解，GMV提升230%

2.影视特效：群演戏份批量生产

原需3周制作的20人法庭辩论戏，现8小时生成

3.元宇宙社交：表情同步的虚拟分身

用户上传自拍+录音 → 生成会“翻白眼/咧嘴笑”的3D形象

开发者福音：实战指南

▶ 一、在线试用

官网提供了文本朗读和上传音频两种方式，目前线上体验版只支持单主体对口型。

1. 找到对应入口 ：打开相关平台，找到“模型广场”，依次点击“混元生视频”“数字人 - 语音驱动（HunyuanVideo - Avatar）”。https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

2. 准备图片和音频 ：准备好你想要制作成数字人视频的图片（大头照、半身照、全身照都可以），以及对应的音频（歌曲、旁白等）。

文本朗读操作步骤
 1.输入一段对口型文本。
 2.选择数字人音色。
 3.上传对口型图片
 4.点击生成，等待片刻，即可获得生成的视频。
上传音频操作步骤
 1.上传一段音频(支持说话或唱歌)
 2.上传对口型图片。
 3.点击生成，等待片刻，即可获得生成的视频。

3. 上传素材：在界面中找到图片和音频的上传入口，按照提示将准备好的素材上传。

4. 生成视频 ：点击生成按钮，等待系统根据你的图片、音频和选择的模板生成数字人视频。

5. 下载或分享 ：生成完成后，可以下载视频到本地，或者直接分享到社交平台。

▶ 二、本地化部署

参考https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

For example, to generate a video with 1 GPU, you can use the following command:
cd HunyuanVideo-Avatar
JOBS_DIR=$(dirname $(dirname "$0"))
exportPYTHONPATH=./
exportMODEL_BASE=./weights
OUTPUT_BASEPATH=./results-single
checkpoint_path=${MODEL_BASE}/ckpts/hunyuan-video-t2v-720p/transformers/mp_rank_00_model_states_fp8.pt
exportDISABLE_SP=1
CUDA_VISIBLE_DEVICES=0 python3 hymm_sp/sample_gpu_poor.py \
--input'assets/test.csv'\
--ckpt${checkpoint_path}\
    --sample-n-frames 129\
--seed128\
    --image-size 704\
    --cfg-scale 7.5\
    --infer-steps 50\
    --use-deepcache 1\
    --flow-shift-eval-video 5.0\
    --save-path ${OUTPUT_BASEPATH}\
    --use-fp8 \
    --infer-min

项目相关链接

体验入口：https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

项目主页：https://hunyuanvideo-avatar.github.io

Github：https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

CNB：https://cnb.cool/tencent/hunyuan/HunyuanVideo-Avatar

技术报告：https://arxiv.org/pdf/2505.20156

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-06-04，如有侵权请联系 cloudcommunity@tencent.com 删除

同步