首个亚秒启动的14B“数字人”开源！效率飙23倍！SoulX-LiveTalk：32FPS让对话丝滑如真人

AI生成未来

发布于 2026-01-13 14:36:07

4830

作者：Le Shen等

解读：AI生成未来

论文链接：https://arxiv.org/pdf/2512.23379 项目链接：https://soul-ailab.github.io/soulx-livetalk/

亮点直击

SoulX-LiveTalk框架： 一个低延迟、实时、音频驱动的虚拟形象框架，其核心是14B参数的DiT模型。克服大规模扩散模型在实时、无限流媒体应用中面临的计算成本高和延迟要求严格的挑战。
改进模型架构和生成质量及提升训练效率： 摒弃了严格的单向范式，转而采用双向教师到双向学生的蒸馏策略。
构建全栈推理加速方案： 为了满足大型DiT模型在严格实时流媒体下的性能要求，构建了一个全栈推理加速解决方案。
实现卓越的性能： 以仅200个蒸馏步骤收敛到卓越性能，与LiveAvatar所需的27,500个步骤相比，效率提升了大约23倍。实现了0.87秒的启动延迟，比现有基线的2.89秒快了约3倍。

总结速览

解决的问题

将大规模扩散模型应用于实时、无限时长的音频驱动虚拟形象生成，存在计算负载与严格的延迟限制之间的冲突。现有方法通常通过强制单向注意力机制或降低模型容量来牺牲视觉保真度，导致运动连贯性不足、视觉细节丢失和误差累积。

提出的方案

本文引入了SoulX-LiveTalk，一个14B参数的框架，通过以下几个关键创新来解决上述问题：

自校正双向蒸馏策略： 与传统单向范式不同，本文在视频块内保留了双向注意力机制，以保持关键的时空关联，显著增强运动连贯性和视觉细节。
多步回顾性自校正机制： 为了确保无限生成过程中的稳定性，该机制使模型能够自主地从累积误差中恢复并防止生成崩溃。
全栈推理加速套件： 整合了混合序列并行、并行VAE和内核级优化，以优化推理性能。

应用的技术

14B参数的Diffusion Transformers (DiTs)： 作为高保真生成建模的可扩展骨干网络。
自校正双向蒸馏： 一种训练策略，在视频块内保留双向注意力，并引入多步回顾性自校正机制来模拟和解决长周期生成中的误差传播。
混合序列并行 (Ulysses和Ring Attention)： 用于DiT的注意力操作加速。
并行VAE (LightX2V的切片并行策略)： 用于加速3D VAE的编码/解码过程。
FlashAttention3： 针对NVIDIA Hopper架构定制的内核级优化。
torch.compile： 用于统一和优化整个推理流水线。
延迟感知时空适应： 一个训练阶段，使模型适应在降低的空间分辨率和更短的帧序列下有效运行。

达到的效果

SoulX-LiveTalk是首个实现亚秒级启动延迟（0.87秒）的14B规模系统。
达到了32 FPS的实时吞吐量，为高保真交互式数字人合成设定了新标准。
模型收敛速度显著加快，仅需1.2k步即可达到卓越性能，比LiveAvatar减少了约23倍的训练步骤（LiveAvatar需要27.5k步）。
通过双向流媒体蒸馏，有效减轻了长周期生成中的误差累积、背景纹理模糊和细节丢失问题。
实现了细粒度的唇音同步精度，生成的唇部几何形状与真实值严格对齐，最大限度地减少了唇音漂移和僵硬。

架构方法

本文详细介绍了SoulX-LiveTalk的核心方法。如下图2所示，该框架建立在14B参数的DiT模型之上，并集成了两阶段训练流水线与全栈推理加速引擎。训练过程包括“延迟感知时空适应”阶段和“自校正双向蒸馏”阶段，旨在同时满足高保真生成和低延迟流媒体的要求。

模型架构

该架构源自WAN2.1-I2V-14B和InfiniteTalk，包含四个主要组件：

3D VAE： 本文利用WAN2.1 VAE进行隐空间压缩，以实现高效的高分辨率视频生成。该模块将视频帧编码为紧凑的潜在表示，在时间、高度和宽度维度上实现4x8x8的时空下采样因子。
基于DiT的生成器： 核心生成器采用DiT架构。如下图2(a)所示，每个DiT块都包含一个3D注意力机制，用于建模时空依赖性。统一的交叉注意力层根据参考图像和文本输入来条件化生成，以保持视觉保真度并提供语义指导。此外，本文集成了一个专用的音频交叉注意力层，将语音驱动信号直接注入生成过程。
条件编码器： 该模型根据音频、文本和参考图像进行条件化生成。本文采用为中文语音定制的Wav2Vec模型，将连续音频信号转换为序列嵌入。为确保身份一致性，本文使用CLIP和VAE编码器从参考图像中提取语义表示和视觉特征。对于文本条件，本文采用umT5以支持双语字幕。这些身份和文本条件通过交叉注意力层注入。
潜在输入公式： 对于给定的源视频，本文采样一个长度为的视频片段。初始的帧作为运动帧以捕获历史上下文，而随后的帧作为生成目标。参考帧从片段边界之外随机采样。所有输入均由3D VAE编码并组合形成DiT输入：

其中表示帧级拼接，表示通道级拼接。代表3D VAE编码器。流结合了历史隐变量和通过在时间步对应用前向扩散过程得到的噪声隐变量。流注入参考指导，而使用二元指示符识别参考帧。这种复合输入结构促进了历史运动上下文与当前生成目标之间的双向交互，使模型能够利用参考信息纠正累积误差。

模型训练

为了在严格的延迟约束下满足实时推理，本文采用两阶段训练策略。“延迟感知时空适应”阶段使模型适应降低的空间分辨率和更短的帧序列，而“自校正双向蒸馏”阶段进一步减少采样步骤并消除无分类器指导。这个两阶段过程能够实现快速模型响应，同时保持高生成质量。

阶段1：延迟感知时空适应 14B参数DiT骨干网络的高计算成本对实时应用构成了重大挑战。尽管原始的InfiniteTalk模型提供了高质量的结果，但其在标准硬件上的推理延迟对于交互式流媒体来说太高了。因此，本文使模型适应在降低的空间分辨率和更短的帧序列下运行。在这些受限设置下直接部署预训练模型会导致特征对齐不良和生成质量下降。本文通过执行一个专门的微调阶段来解决这个问题，该阶段针对目标分辨率和帧数进行优化。在此阶段，本文采用动态宽高比分桶策略高效组织训练样本，减少了因填充或裁剪造成的数据损失。此过程使14B模型即使在较低分辨率下也能恢复精细细节并保持身份一致性。
阶段2：自校正双向蒸馏 多步采样和无分类器指导会产生显著的计算开销。本文采用DMD框架来压缩采样步骤并消除对指导的需求，从而实现实时流媒体。该框架旨在通过使用Kullback–Leibler (KL) 散度作为优化标准，最小化每个时间步原始教师模型和蒸馏学生模型之间的分布差异。由此产生的训练目标公式为：

其中，被冻结以建模教师分布，而是可训练的，并跟踪不断演变的学生分布。学生生成器通过少量步骤推理生成样本，无需分类器指导。所有组件均从阶段1 SFT模型初始化。标准DMD无法解决长视频中误差累积或身份漂移的问题。受Self-Forcing++的启发，本文引入了自校正双向蒸馏，其中包含一个多步回顾性自校正机制，以明确模拟长周期生成过程中的误差传播。具体来说，生成器需要自回归地合成K个连续块，其中每个块都以先前生成的运动帧而不是真实值作为条件。为了平衡计算效率和训练稳定性，本文进一步提出了一种随机截断策略。本文随机采样一个小于K的较小值，并仅生成前个块，而不是合成所有K个块。在反向传播过程中，从T个缩减采样步骤中随机采样一个去噪步骤，并且仅保留第个块的第个去噪步骤的梯度，而所有其他步骤都从计算图中分离。这种随机截断提供了内存高效且无偏的全训练目标近似，可以表示为：

其中表示模型在第个块的第个去噪步骤的输出，并且在反向传播过程中，所有先前的块和去噪步骤都从计算图中分离。遵循这种两阶段训练策略，SoulX-LiveTalk在推理速度和生成质量方面均优于现有音频驱动视频生成模型，达到了最先进的性能。

实时推理加速

仅仅单独优化训练和推理不足以完全满足严格的低延迟要求。为了实现14B参数模型的亚秒级延迟，本文实现了一个专门为8个H800节点设计的全栈加速套件。

核心计算瓶颈在于DiT的大规模注意力操作。为了消除这一障碍，本文部署了由xDiT驱动的混合序列并行。通过协同Ulysses和Ring Attention机制，本文有效地分配了注意力工作负载，与标准实现相比，单步推理速度提高了约5倍。此外，本文通过采用FlashAttention3在内核级别优化了DiT，FlashAttention3专门设计用于利用NVIDIA Hopper架构，包括其异步执行流水线。这改进了数据移动和计算之间的重叠，使得注意力延迟比FlashAttention2额外减少了20%。

随着DiT推理的充分加速，高分辨率VAE解码器的计算开销成为主要的延迟因素。为了解决这种范式转变，本文引入了3D VAE并行以减轻解码负担。通过采用基于切片策略将空间解码工作负载分布到多个GPU上，本文实现了VAE处理速度的约5倍加速，确保它不会成为流水线瓶颈。

最后，为了消除Python运行时和碎片化内核执行带来的开销，整个推理流水线通过torch.compile进行统一和优化。这使得激进的图级融合和内存优化成为可能，最大限度地利用了H800节点的硬件能力。

架构分析：为什么选择双向？

尽管自回归模型在流媒体视频生成中占据主导地位，但其固有的单向依赖性从根本上限制了全局时间结构的建模。在这种范式下，模型主要以历史帧为条件，并通常避免严格的逐帧合成。相反，生成以最小的块进行以提高局部一致性，其中在每个块内应用双向注意力，而在块之间强制执行单向依赖性。然而，这种折衷仍不足以防止时间不一致、误差累积和身份漂移，特别是在长周期生成中。

本文认为，对于目标任务而言，整合长历史并非主要瓶颈。相反，有效抑制时间漂移和累积误差更为重要。受此观察的启发，本文完全保留了原始模型的双向注意力机制，始终允许帧之间进行全对全的信息交换。这种设计使模型能够在每一步共同利用过去和隐式未来上下文，从而实现更准确和连贯的生成，同时与教师架构完全对齐，从而显著加速模型训练。

这种双向建模不仅大大提高了单个块内的时空连贯性，而且还为流媒体生成提供了更强大、更高质量的基本单元，从而有效地缓解了整个长序列视频生成中的漂移和崩溃问题。

实验总结

本节介绍了SoulX-LiveTalk的实现细节、所用数据集和评估指标，并对其性能、蒸馏策略的消融研究以及推理延迟进行了分析。

实现细节： 模型基于InfiniteTalk架构，并针对实时约束进行了优化。训练包括1000步的轻量级SFT阶段和200步的蒸馏阶段。学习率设置为生成器，Fake Score Network ，更新比为1:5。为模拟长周期生成中的误差累积，生成器在蒸馏过程中合成多达个连续块。实验使用32个NVIDIA H20 GPU，每GPU批处理大小为1，并采用FSDP、梯度检查点和混合精度训练来提高效率。
数据集： 训练和评估数据来源于公开的SpeakerVid-5M和TalkVid数据集，确保训练集和测试集无重叠。构建了一个名为TalkBench的专用基准，包含TalkBench-Short（100个样本，时长小于10秒）和TalkBench-Long（20个样本，时长超过5分钟）两个子集。
评估指标： 使用Q-Align视觉语言模型进行图像质量评估（IQA）和美学得分评估（ASE）。唇音同步通过Sync-C和Sync-D指标衡量。此外，采用VBench评估时间质量，包括主体一致性（Subject-C）、背景一致性（BG-C）、运动平滑度（Motion-S）和时间闪烁（Temporal-F）。

SoulX-LiveTalk的性能

本文将SoulX-LiveTalk与Ditto、EchoMimic-V3、StableAvatar、OmniAvatar、InfiniteTalk和LiveAvatar等最先进的音频驱动生成模型进行了比较。

定量分析

如下表1所示，在TalkBench-Short和TalkBench-Long数据集上，SoulX-LiveTalk在视觉质量和同步方面表现出色。在短视频基准测试中，ASE达到3.51，IQA达到4.79，均超过Echomimic-V3。唇音同步方面，Sync-C得分为1.47，优于OmniAvatar。在推理速度方面，14B参数模型吞吐量达到32 FPS，超过实时要求的25 FPS，并显著优于LiveAvatar的20.88 FPS。

在时间一致性指标方面，Ditto在Subject-C和BG-C上表现最佳，但其生成范式限制了全身动态。SoulX-LiveTalk在生成全身运动的同时，Subject-C仍达到99.22，实现了运动表现力和时间稳定性之间的平衡。

在长周期生成方面，SoulX-LiveTalk的Sync-C达到1.61，Sync-D为12.25，优于InfiniteTalk和LiveAvatar，并保持32 FPS的吞吐量。这些结果证实了双向蒸馏策略能有效减少单向流媒体模型中常见的不同步和漂移问题。

定性分析

本节对SoulX-LiveTalk的生成保真度、长期稳定性和唇音同步精度进行了定性评估。

视觉保真度和细节保留： 如下图3所示，在5秒视频生成中，基线模型在大幅肢体运动时存在困难。Ditto无法合成有意义的手部动作（如橙色框所示），EchoMimic-v3和StableAvatar在手部区域存在结构变形和伪影（如蓝色框所示）。InfiniteTalk在快速手势时出现手部过曝和运动模糊。相比之下，SoulX-LiveTalk利用其14B DiT架构和双向注意力机制消除了这些伪影，合成了清晰、结构完整、纹理锐利的手部动作，并超越LiveAvatar在背景一致性和身份保真度方面表现更优。

无限生成中的稳定性： 如下图4所示，在连续生成长达1000秒时，基线模型（LiveAvatar、StableAvatar、InfiniteTalk）存在显著的误差累积，背景区域出现严重的纹理模糊和细节丢失（如蓝色框所示）。SoulX-LiveTalk通过双向流媒体蒸馏和自校正机制减轻了误差传播（如橙色框所示），即使在1000秒标记处仍保持一致的面部几何形状和清晰的背景细节，验证了其在无限流媒体中的鲁棒性。

细粒度唇音同步精度： 如下图5所示，在特定中文发音时，基线模型在复杂音素上存在结构错位，例如在发音“上”、“突”时，其嘴部张开度和形状与真实值（GT）不匹配（如黄色虚线框所示）。相反，SoulX-LiveTalk捕捉了这些细粒度音素动态，生成的唇部几何形状与GT严格对齐，从而最大限度地减少了唇音漂移和僵硬，确保了跨不同语言的视觉真实性。

蒸馏消融

多步回顾性自校正的影响

本部分分析了生成块数和调度策略对长期稳定性的影响。比较了固定为1、3或5的策略与训练期间在1到5之间随机采样的随机策略。

如下表2所示，单块训练的训练成本最低（2.33小时），但无法保持长期稳定性，长视频上的Sync-C得分仅为1.12，证实了误差累积问题。将增加到3显著提高了稳定性。然而，将进一步增加到5会将训练成本提高到6.40小时，但同步性能没有相应提升。随机策略达到了最佳的整体平衡，实现了最高的长Sync-C得分1.61和最佳的视觉质量指标，同时将训练成本保持在适度的4.40小时。这表明在蒸馏过程中使模型接触不同自回归长度可有效提高对累积误差的鲁棒性。

运动隐变量条件对DMD的影响

本部分从运动隐变量来源、噪声注入和损失计算三个维度考察了Real Score网络的条件设置。如下表3所示，使用学生预测的运动隐变量比使用真实值（GT）隐变量能产生更好的视觉质量。具体而言，带有噪声的预测策略的ASE为3.51，IQA为4.79，超过了GT配置（3.48和4.77）。这表明使用预测隐变量有助于减少训练和推理之间的差异。

关于噪声和损失，将噪声注入预测隐变量可提高性能，使ASE从3.46提高到3.51。相反，将运动隐变量包含在损失计算中会将ASE降至3.48。这表明要求模型重建条件帧会分散对主要去噪任务的关注。因此，带有噪声注入和无损失的预测隐变量配置可提供最佳结果。

推理延迟分析

分析了在不同数量的NVIDIA H800 GPU的单节点系统上组件级延迟。实验设置目标为720x416分辨率和4步去噪的高保真流媒体。每个片段包含33帧，包括28个生成帧和5个运动帧。在此配置下，流水线吞吐量可达32 FPS。

首先检查VAE和DiT的延迟，以突出多GPU并行化的必要性，如下表4所示。在单个GPU上，DiT推理本身每步产生1070毫秒的延迟，而VAE推理编码运动帧需要97毫秒，解码生成帧需要988毫秒。

当扩展到8个GPU时，DiT和VAE分别使用xDiT的混合序列并行和LightX2V的基于切片的并行策略进行并行化。由于GPU间通信开销，加速略微低于线性，整体加速接近5倍。具体而言，DiT延迟从1070毫秒减少到193毫秒，VAE编码从97毫秒减少到21毫秒，解码从988毫秒减少到192毫秒。通过启用torch.compile实现了额外的延迟降低。

在核心组件优化基础上，本文报告了8个H800 GPU集群上端到端流水线延迟，如下图6所示。在稳态生成循环期间，每个周期的总延迟为876毫秒，其中音频处理耗时33毫秒，核心4步DiT去噪耗时616毫秒，帧解码耗时187毫秒，运动帧编码耗时14毫秒。其余延迟归因于其他开销。通过实现亚秒级的端到端延迟，所提出的流水线满足了实时流媒体严格的吞吐量要求。

结论和未来工作

SoulX-LiveTalk，一个旨在满足实时要求同时保持高质量视频合成的框架。该框架将双向流媒体蒸馏与多步自校正机制相结合，使本文的14B参数DiT模型能够在8个H800集群上维持稳定、无限长的流媒体。本文的方法还简化了训练，证明了不需要复杂的多阶段预训练。简短的SFT阶段后进行分布匹配蒸馏就足以实现最先进的性能。

未来的工作将优先考虑模型效率而非系统扩展。本文计划探索剪枝、量化和优化的注意力机制。目标是在消费级硬件上部署这些模型，消除对昂贵计算集群的依赖。

参考文献

[1] SoulX-LiveTalk Technical Report

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。