Transformer架构通过以下核心机制优化视频生成的时序性,结合了自注意力机制、时空建模策略及结构创新:
全局时空自注意力机制
- 原理:通过计算视频序列中所有帧与位置的全局依赖关系,捕捉长距离时序关联。例如,Sora模型将视频视为连续的token序列,利用多头自注意力机制建模帧间运动轨迹和物体交互。
- 实现:
- 时间维度扩展:将视频帧展平为时空token序列(如[帧1, 帧2, ..., 帧T](@ref)),输入Transformer进行全局建模。
- 动态权重分配:通过Softmax加权不同帧的贡献,强化关键帧的影响(如动作转折点)。
- 优势:解决传统RNN/LSTM的长程依赖衰减问题,支持生成复杂运动(如流体模拟)。
时空位置编码分离
- 原理:将空间(单帧内像素关系)与时间(帧间时序)编码解耦,避免信息混淆。ViViT通过独立的空间补丁编码和时间嵌入实现这一点。
- 实现:
- 空间编码:采用二维相对位置编码(如Swin Transformer的窗口机制),捕捉局部结构。
- 时间编码:使用一维正弦余弦编码或可学习时间嵌入,建模帧间顺序。
- 优势:减少参数冗余,提升对静态场景和动态运动的分别建模能力。
分层/分块时空建模
- 原理:将视频分解为多尺度时空单元,逐层聚合信息。例如,LTX-Video通过32×32×8像素的Token分块,实现高压缩率下的全局注意力。
- 实现:
- 空间下采样:对每帧分块后进行卷积或池化,降低分辨率。
- 时间跨帧交互:在Transformer中引入稀疏时间注意力(如仅连接相邻帧),减少计算量。
- 优势:平衡计算效率与建模精度,支持长视频生成(如60秒以上)。
动态特征缓存与门控机制
- 原理:聚合相邻Transformer层的特征,增强时间一致性。RepVideo通过特征缓存模块实现这一目标。
- 实现:
- 特征缓存:存储多层Transformer输出,通过均值聚合生成稳定表示。
- 门控融合:使用可学习参数控制原始输入与聚合特征的权重。
- 优势:缓解深层网络导致的特征碎片化,提升相邻帧相似性(PSNR提升4.84%)。
扩散过程与时空对齐
- 原理:在扩散模型中引入Transformer,分阶段优化时空质量。Sora结合扩散模型的去噪过程与Transformer的时序建模,逐步生成连贯帧。
- 实现:
- 噪声预测:Transformer预测噪声分布,指导去噪方向。
- 时序约束:在去噪步骤中加入光流估计或运动向量,约束帧间运动合理性。
- 优势:生成高分辨率(如4K)且物理规律合理的视频。
稀疏注意力与硬件优化
- 原理:利用注意力机制的时空稀疏性,减少冗余计算。Sparse VideoGen通过动态选择Spatial/Temporal Head,加速推理2倍。
- 实现:
- 稀疏模式识别:分析注意力头的作用(空间局部性或时间连续性)。
- 自适应掩码:根据去噪步骤动态调整注意力范围。
- 优势:在H100 GPU上实现实时生成(如5秒视频仅需2秒)。