首页
学习
活动
专区
圈层
工具
发布

世界首个实时扩散模型诞生

2022 年以来,扩散模型(Diffusion Models)在静态图像生成上大放异彩,但怎么应用于实时视频流?

典型场景:直播互动、游戏开发、动画制作、虚拟试衣等,需要“场景随心所欲” 。

这些应用点都渴望更低延迟、更高质量、更易集成的解决方案。

而这面临诸多技术难题:

高延迟:传统扩散需要上百个采样步骤;

跨帧一致性:视频需保持连续性,避免闪烁和跳帧;

无限长度:一次性生成长视频会耗尽显存,且无法实时输出。

目前,市面上的视频生成模型,一般有 5-10s 延迟,且每个片段只有 5-10s, 要想达到实时生成(人眼无卡顿),必须在 40ms 内完成单帧图像生成。

怎么办?扩散模型管用吗?

(1)MirageLSD介绍

首个实时扩散模型出来了,Decart AI 刚发布首个直播流扩散(Live Stream Diffusion, LSD) 模型MirageLSD,能够在 24 FPS 下、端到端延迟 <40ms 的条件下,实时将任意视频流转换成任何场景,并支持无限长度视频的持续输出。

保持时间连贯性的同时,逐帧生成视频,并支持完全交互式的视频合成。

用户可以在视频生成的同时,进行持续提示、变换和编辑,实现了真正的实时交互。

MirageLSD 的出现,突破以上瓶颈,将扩散模型真正带入实时视频应用时代。

视频生成长度对比:直接无限时长,傲视群雄

生成速度对比:还是吊打一众“大佬”,技惊四座

(2)MirageLSD 效果

实时合成效果:

原始视频

合成效果

吉卜力风格

动图效果:右下角是摄像头实时拍摄,模型确实能实时生成风格化视频

(3)MirageLSD技术原理

LSD模型采用了多种创新技术。

首先,设计自定义的CUDA超大内核,以最大限度地减少开销并提高吞吐量。

其次,在快捷蒸馏和模型剪枝的基础上,减少了每帧所需的计算量。

最后,优化模型架构以与GPU硬件对齐,实现了最高效率。

这些技术的共同作用,使得 MirageLSD 响应速度比之前的模型提高了16倍,实现了每秒24帧的实时视频生成。

自回归模型存在的问题:错误累积,序列生成时,上一帧的错误会传递到当前帧,导致画面内容偏差越来越大,恶性循环。

解决方法:

历史增强技术,模型预测并修正输入中的伪影,从而增强了对自回归生成中常见漂移的鲁棒性。

Diffusion Forcing技术

MirageLSD 架构解读

时空 U-Net 核心

输入:来自摄像头、屏幕捕获、游戏引擎的连续视频帧。

编码器:多层 2D 卷积加 3D 卷积混合,提取单帧与相邻帧的时空特征。

时空注意力模块:在 U-Net 的每个阶段加入跨帧 self-/cross-attention,保证画面一致性。

解码器:基于注意力融合后的 latent,重建成目标场景的 RGB 帧。

低延迟采样策略

改良 DDIM:由原始 50+ 步骤降至 3–5 步骤,并结合可学习的时间调度器(Time-Step Scheduler),在保证画质的前提下极大缩短采样时间。

渐进式分辨率:先用低分辨率快速生成,再通过轻量级超分网络(Super-Resolution Net)恢复至目标分辨率,进一步减小主流程延迟。

光流引导与状态保持

在线光流估计:通过高效的 FlowNet-lite 计算相邻帧光流,并将其引入时空注意力,提升帧间一致性。

隐藏态缓存:维护上一帧的 latent 隐藏态,作为下一帧生成的初始条件,支持无限长度视频的连续推理。

未来,还将增加语音、表情

附录

官网:https://mirage.decart.ai/

技术报告:MirageLSD: The First Live-Stream Diffusion AI Video Model,https://about.decart.ai/publications/mirage

体验视频:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O_H1Fu1uyccmu6f4U22M7hsQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券