作者:Le Shen等
解读:AI生成未来

论文链接:https://arxiv.org/pdf/2512.23379 项目链接:https://soul-ailab.github.io/soulx-livetalk/
亮点直击

将大规模扩散模型应用于实时、无限时长的音频驱动虚拟形象生成,存在计算负载与严格的延迟限制之间的冲突。现有方法通常通过强制单向注意力机制或降低模型容量来牺牲视觉保真度,导致运动连贯性不足、视觉细节丢失和误差累积。
本文引入了SoulX-LiveTalk,一个14B参数的框架,通过以下几个关键创新来解决上述问题:
本文详细介绍了SoulX-LiveTalk的核心方法。如下图2所示,该框架建立在14B参数的DiT模型之上,并集成了两阶段训练流水线与全栈推理加速引擎。训练过程包括“延迟感知时空适应”阶段和“自校正双向蒸馏”阶段,旨在同时满足高保真生成和低延迟流媒体的要求。

该架构源自WAN2.1-I2V-14B和InfiniteTalk,包含四个主要组件:

其中 表示帧级拼接, 表示通道级拼接。 代表3D VAE编码器。流 结合了历史隐变量和通过在时间步 对 应用前向扩散过程 得到的噪声隐变量。流 注入参考指导,而 使用二元指示符识别参考帧。这种复合输入结构促进了历史运动上下文与当前生成目标之间的双向交互,使模型能够利用参考信息纠正累积误差。
为了在严格的延迟约束下满足实时推理,本文采用两阶段训练策略。“延迟感知时空适应”阶段使模型适应降低的空间分辨率和更短的帧序列,而“自校正双向蒸馏”阶段进一步减少采样步骤并消除无分类器指导。这个两阶段过程能够实现快速模型响应,同时保持高生成质量。

其中, 被冻结以建模教师分布,而 是可训练的,并跟踪不断演变的学生分布。学生生成器 通过少量步骤推理生成样本,无需分类器指导。所有组件均从阶段1 SFT模型初始化。 标准DMD无法解决长视频中误差累积或身份漂移的问题。受Self-Forcing++的启发,本文引入了自校正双向蒸馏,其中包含一个多步回顾性自校正机制,以明确模拟长周期生成过程中的误差传播。具体来说,生成器需要自回归地合成K个连续块,其中每个块都以先前生成的运动帧而不是真实值作为条件。 为了平衡计算效率和训练稳定性,本文进一步提出了一种随机截断策略。本文随机采样一个小于K的较小值 ,并仅生成前 个块,而不是合成所有K个块。在反向传播过程中,从T个缩减采样步骤中随机采样一个去噪步骤 ,并且仅保留第 个块的第 个去噪步骤的梯度,而所有其他步骤都从计算图中分离。这种随机截断提供了内存高效且无偏的全训练目标近似,可以表示为:

其中 表示模型在第 个块的第 个去噪步骤的输出,并且在反向传播过程中,所有先前的块和去噪步骤都从计算图中分离。 遵循这种两阶段训练策略,SoulX-LiveTalk在推理速度和生成质量方面均优于现有音频驱动视频生成模型,达到了最先进的性能。
仅仅单独优化训练和推理不足以完全满足严格的低延迟要求。为了实现14B参数模型的亚秒级延迟,本文实现了一个专门为8个H800节点设计的全栈加速套件。
核心计算瓶颈在于DiT的大规模注意力操作。为了消除这一障碍,本文部署了由xDiT驱动的混合序列并行。通过协同Ulysses和Ring Attention机制,本文有效地分配了注意力工作负载,与标准实现相比,单步推理速度提高了约5倍。此外,本文通过采用FlashAttention3在内核级别优化了DiT,FlashAttention3专门设计用于利用NVIDIA Hopper架构,包括其异步执行流水线。这改进了数据移动和计算之间的重叠,使得注意力延迟比FlashAttention2额外减少了20%。
随着DiT推理的充分加速,高分辨率VAE解码器的计算开销成为主要的延迟因素。为了解决这种范式转变,本文引入了3D VAE并行以减轻解码负担。通过采用基于切片策略将空间解码工作负载分布到多个GPU上,本文实现了VAE处理速度的约5倍加速,确保它不会成为流水线瓶颈。
最后,为了消除Python运行时和碎片化内核执行带来的开销,整个推理流水线通过torch.compile进行统一和优化。这使得激进的图级融合和内存优化成为可能,最大限度地利用了H800节点的硬件能力。
尽管自回归模型在流媒体视频生成中占据主导地位,但其固有的单向依赖性从根本上限制了全局时间结构的建模。在这种范式下,模型主要以历史帧为条件,并通常避免严格的逐帧合成。相反,生成以最小的块进行以提高局部一致性,其中在每个块内应用双向注意力,而在块之间强制执行单向依赖性。然而,这种折衷仍不足以防止时间不一致、误差累积和身份漂移,特别是在长周期生成中。
本文认为,对于目标任务而言,整合长历史并非主要瓶颈。相反,有效抑制时间漂移和累积误差更为重要。受此观察的启发,本文完全保留了原始模型的双向注意力机制,始终允许帧之间进行全对全的信息交换。这种设计使模型能够在每一步共同利用过去和隐式未来上下文,从而实现更准确和连贯的生成,同时与教师架构完全对齐,从而显著加速模型训练。
这种双向建模不仅大大提高了单个块内的时空连贯性,而且还为流媒体生成提供了更强大、更高质量的基本单元,从而有效地缓解了整个长序列视频生成中的漂移和崩溃问题。
本节介绍了SoulX-LiveTalk的实现细节、所用数据集和评估指标,并对其性能、蒸馏策略的消融研究以及推理延迟进行了分析。
本文将SoulX-LiveTalk与Ditto、EchoMimic-V3、StableAvatar、OmniAvatar、InfiniteTalk和LiveAvatar等最先进的音频驱动生成模型进行了比较。
如下表1所示,在TalkBench-Short和TalkBench-Long数据集上,SoulX-LiveTalk在视觉质量和同步方面表现出色。在短视频基准测试中,ASE达到3.51,IQA达到4.79,均超过Echomimic-V3。唇音同步方面,Sync-C得分为1.47,优于OmniAvatar。在推理速度方面,14B参数模型吞吐量达到32 FPS,超过实时要求的25 FPS,并显著优于LiveAvatar的20.88 FPS。

在时间一致性指标方面,Ditto在Subject-C和BG-C上表现最佳,但其生成范式限制了全身动态。SoulX-LiveTalk在生成全身运动的同时,Subject-C仍达到99.22,实现了运动表现力和时间稳定性之间的平衡。
在长周期生成方面,SoulX-LiveTalk的Sync-C达到1.61,Sync-D为12.25,优于InfiniteTalk和LiveAvatar,并保持32 FPS的吞吐量。这些结果证实了双向蒸馏策略能有效减少单向流媒体模型中常见的不同步和漂移问题。
本节对SoulX-LiveTalk的生成保真度、长期稳定性和唇音同步精度进行了定性评估。



本部分分析了生成块数 和调度策略对长期稳定性的影响。比较了 固定为1、3或5的策略与训练期间 在1到5之间随机采样的随机策略。
如下表2所示,单块 训练的训练成本最低(2.33小时),但无法保持长期稳定性,长视频上的Sync-C得分仅为1.12,证实了误差累积问题。将 增加到3显著提高了稳定性。然而,将 进一步增加到5会将训练成本提高到6.40小时,但同步性能没有相应提升。随机策略达到了最佳的整体平衡,实现了最高的长Sync-C得分1.61和最佳的视觉质量指标,同时将训练成本保持在适度的4.40小时。这表明在蒸馏过程中使模型接触不同自回归长度可有效提高对累积误差的鲁棒性。

本部分从运动隐变量来源、噪声注入和损失计算三个维度考察了Real Score网络的条件设置。如下表3所示,使用学生预测的运动隐变量比使用真实值(GT)隐变量能产生更好的视觉质量。具体而言,带有噪声的预测策略的ASE为3.51,IQA为4.79,超过了GT配置(3.48和4.77)。这表明使用预测隐变量有助于减少训练和推理之间的差异。

关于噪声和损失,将噪声注入预测隐变量可提高性能,使ASE从3.46提高到3.51。相反,将运动隐变量包含在损失计算中会将ASE降至3.48。这表明要求模型重建条件帧会分散对主要去噪任务的关注。因此,带有噪声注入和无损失的预测隐变量配置可提供最佳结果。
分析了在不同数量的NVIDIA H800 GPU的单节点系统上组件级延迟。实验设置目标为720x416分辨率和4步去噪的高保真流媒体。每个片段包含33帧,包括28个生成帧和5个运动帧。在此配置下,流水线吞吐量可达32 FPS。
首先检查VAE和DiT的延迟,以突出多GPU并行化的必要性,如下表4所示。在单个GPU上,DiT推理本身每步产生1070毫秒的延迟,而VAE推理编码运动帧需要97毫秒,解码生成帧需要988毫秒。

当扩展到8个GPU时,DiT和VAE分别使用xDiT的混合序列并行和LightX2V的基于切片的并行策略进行并行化。由于GPU间通信开销,加速略微低于线性,整体加速接近5倍。具体而言,DiT延迟从1070毫秒减少到193毫秒,VAE编码从97毫秒减少到21毫秒,解码从988毫秒减少到192毫秒。通过启用torch.compile实现了额外的延迟降低。
在核心组件优化基础上,本文报告了8个H800 GPU集群上端到端流水线延迟,如下图6所示。在稳态生成循环期间,每个周期的总延迟为876毫秒,其中音频处理耗时33毫秒,核心4步DiT去噪耗时616毫秒,帧解码耗时187毫秒,运动帧编码耗时14毫秒。其余延迟归因于其他开销。通过实现亚秒级的端到端延迟,所提出的流水线满足了实时流媒体严格的吞吐量要求。

SoulX-LiveTalk,一个旨在满足实时要求同时保持高质量视频合成的框架。该框架将双向流媒体蒸馏与多步自校正机制相结合,使本文的14B参数DiT模型能够在8个H800集群上维持稳定、无限长的流媒体。本文的方法还简化了训练,证明了不需要复杂的多阶段预训练。简短的SFT阶段后进行分布匹配蒸馏就足以实现最先进的性能。
未来的工作将优先考虑模型效率而非系统扩展。本文计划探索剪枝、量化和优化的注意力机制。目标是在消费级硬件上部署这些模型,消除对昂贵计算集群的依赖。
[1] SoulX-LiveTalk Technical Report
技术交流社区免费开放
这是一个高质量AIGC技术社群。
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

欢迎扫码加入
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!