2022 年以来,扩散模型(Diffusion Models)在静态图像生成上大放异彩,但怎么应用于实时视频流?
典型场景:直播互动、游戏开发、动画制作、虚拟试衣等,需要“场景随心所欲” 。
这些应用点都渴望更低延迟、更高质量、更易集成的解决方案。
而这面临诸多技术难题:
高延迟:传统扩散需要上百个采样步骤;
跨帧一致性:视频需保持连续性,避免闪烁和跳帧;
无限长度:一次性生成长视频会耗尽显存,且无法实时输出。
目前,市面上的视频生成模型,一般有 5-10s 延迟,且每个片段只有 5-10s, 要想达到实时生成(人眼无卡顿),必须在 40ms 内完成单帧图像生成。
怎么办?扩散模型管用吗?
(1)MirageLSD介绍
首个实时扩散模型出来了,Decart AI 刚发布首个直播流扩散(Live Stream Diffusion, LSD) 模型MirageLSD,能够在 24 FPS 下、端到端延迟 <40ms 的条件下,实时将任意视频流转换成任何场景,并支持无限长度视频的持续输出。
保持时间连贯性的同时,逐帧生成视频,并支持完全交互式的视频合成。
用户可以在视频生成的同时,进行持续提示、变换和编辑,实现了真正的实时交互。
MirageLSD 的出现,突破以上瓶颈,将扩散模型真正带入实时视频应用时代。
视频生成长度对比:直接无限时长,傲视群雄
生成速度对比:还是吊打一众“大佬”,技惊四座
(2)MirageLSD 效果
实时合成效果:
原始视频
合成效果
吉卜力风格
动图效果:右下角是摄像头实时拍摄,模型确实能实时生成风格化视频
(3)MirageLSD技术原理
LSD模型采用了多种创新技术。
首先,设计自定义的CUDA超大内核,以最大限度地减少开销并提高吞吐量。
其次,在快捷蒸馏和模型剪枝的基础上,减少了每帧所需的计算量。
最后,优化模型架构以与GPU硬件对齐,实现了最高效率。
这些技术的共同作用,使得 MirageLSD 响应速度比之前的模型提高了16倍,实现了每秒24帧的实时视频生成。
自回归模型存在的问题:错误累积,序列生成时,上一帧的错误会传递到当前帧,导致画面内容偏差越来越大,恶性循环。
解决方法:
历史增强技术,模型预测并修正输入中的伪影,从而增强了对自回归生成中常见漂移的鲁棒性。
Diffusion Forcing技术
MirageLSD 架构解读
时空 U-Net 核心
输入:来自摄像头、屏幕捕获、游戏引擎的连续视频帧。
编码器:多层 2D 卷积加 3D 卷积混合,提取单帧与相邻帧的时空特征。
时空注意力模块:在 U-Net 的每个阶段加入跨帧 self-/cross-attention,保证画面一致性。
解码器:基于注意力融合后的 latent,重建成目标场景的 RGB 帧。
低延迟采样策略
改良 DDIM:由原始 50+ 步骤降至 3–5 步骤,并结合可学习的时间调度器(Time-Step Scheduler),在保证画质的前提下极大缩短采样时间。
渐进式分辨率:先用低分辨率快速生成,再通过轻量级超分网络(Super-Resolution Net)恢复至目标分辨率,进一步减小主流程延迟。
光流引导与状态保持
在线光流估计:通过高效的 FlowNet-lite 计算相邻帧光流,并将其引入时空注意力,提升帧间一致性。
隐藏态缓存:维护上一帧的 latent 隐藏态,作为下一帧生成的初始条件,支持无限长度视频的连续推理。
未来,还将增加语音、表情
附录
官网:https://mirage.decart.ai/
技术报告:MirageLSD: The First Live-Stream Diffusion AI Video Model,https://about.decart.ai/publications/mirage
体验视频: