可以从若干维度来概括大模型视频生成的核心技术,下面按类别列出并简要说明要点:
生成模型架构
- 扩散模型(Diffusion):目前视频生成中最主流的方法,借由逐步去噪在像素或潜在空间生成视频,代表性思路有时空扩散与潜在视频扩散(latent video diffusion)。
- 自回归与序列建模(Autoregressive / Transformer):把视频帧或视觉 token 当作序列依次预测,擅长长期依赖建模。
- GAN / VAE 等:历史上用于视频合成与增强,GAN 可提供细节锐利度,VAE 常用于学习潜在表示并结合其他生成器使用。
时序建模机制
- 时空卷积(3D-CNN):直接在时空体上提取特征,适合局部运动建模。
- 时间注意力(Temporal / Spatio-temporal Attention):用 Transformer 类机制跨帧建模长时依赖与全局一致性(如TimeSformer 风格)。
- 运动表示与光流(optical flow / motion fields):显式建模帧间运动,用于保持帧间连贯或进行帧插值/传递。
潜在表示与压缩(Latent modeling)
- VQ-VAE、编码器-解码器与潜在扩散(LDM):在较低维的潜在空间上进行生成,大幅降低计算与内存开销,便于高分辨率生成。
- Token 化与离散化:将视频切分成视觉 token 以便用 Transformer 建模。
多模态条件与控制手段
- 文本条件(text-to-video):使用强文本编码器(如CLIP、T5)与交叉注意力实现文本到视频的对齐。
- 图像/视频/骨架/动作条件(image-to-video、pose、motion transfer):通过条件增强生成特定动作或保持外观一致。
- 控制网络(如 ControlNet 思路):把结构化控制(边缘、深度、关键点)提供给生成器。
训练策略与自监督预训练
- 大规模视频/图文对齐预训练(WebVid、HowTo100M 等)用于学习通用时空语义。
- 掩码建模(video MAE)、对比学习与跨模态对比(CLIP-style)提高表示能力。
- 数据增强与合成数据缓解标注不足。
推理加速与可扩展性技术
- 在潜在空间生成、时空因式分解、稀疏/局部注意力、低秩/线性化注意力等来节约算力。
- 递归/流式生成与记忆机制用于长视频合成。
采样与引导技术
- DDIM、DDPM 等扩散采样器及其加速变体;分类-或无分类条件引导(classifier-free guidance)用于增强条件一致性和细节。
- 采样步数-质量权衡与多尺度采样策略。
损失函数与评估指标
- 感知损失(perceptual)、对抗损失、像素重构、光流一致性与时间一致性损失共同保证质量与连贯性。
- 常用评估:FVD(Frechet Video Distance)、LPIPS、IS、用户主观评估。
后处理与增强
- 超分辨率、色彩修正、帧间平滑与去闪烁技术,以及基于光流的时间一致性修正。
数据与标注相关
- 大规模、噪声多样的数据采集、清洗、去重、以及多模态对齐(字幕、旁白)是训练质量的基础。
安全、可控与可解释性技术
- 生成内容的水印嵌入、可追踪性、深伪检测与偏见/版权控制机制是实用部署不可或缺的部分。