我们先看看下面的视频
上面这1分钟以上的视频看着如何?是不是还以为是原版更新了
有很多网友甚至还搞出了方言版本!
其实上面的都是AI生成的!
视频生成难题!
在视频生成领域,如何让一段只有几秒钟的演示扩展到一分多钟,同时还能保持连贯的风格与内容,是很困难的
而ttt-video-dit就是为解决这两个问题而生的工具,就是上面两个视频使用的框架!
它如何做到的?
它基于扩散 Transformer 架构,通过 "测试时训练(TTT)层" 捕捉视频的全局上下文关系,同时保留预训练模型的局部注意力能力,最终实现了 63 秒长视频的稳定生成。
简单说,这个项目让 AI 既能 "看到" 整个视频的全局逻辑(比如故事线),又能 "关注" 每 3 秒片段的细节(比如画面风格),从而生成既连贯又风格统一的长视频。
TTT-Video 基于 CogVideoX 5B 文本到视频的扩散变换器,本地部署要求就没有那么高了!
把原始模型的注意力层(attention layers)留作对每个 3 秒分段的“本地”处理,同时在这些段之间插入 TTT 层,用以建模全局的时序依赖。
手把手教你用
首先需要安装项目依赖,推荐用 conda(环境管理工具):
# 克隆项目代码git clone https://github.com/test-time-training/ttt-video-dit.gitcd ttt-video-dit# 创建并激活虚拟环境conda env create -f environment.yamlconda activate ttt-video# 安装核心组件(TTT-MLP kernel,需要CUDA 12.3+和gcc11+)git submodule update --init --recursivecd ttt-tk && python setup.py install
准备 "原材料":预训练模型
TTT-Video 需要基于 CogVideoX 的预训练权重进行微调,需要下载这些文件:
VAE 和 T5 编码器:按照CogVideoX 官方指南获取
https://github.com/zai-org/CogVideo/blob/main/sat/README.md
扩散模型权重:从HuggingFace下载两个safetensors文件(注意选 5B 版本,不是 2B)
https://huggingface.co/zai-org/CogVideoX-5b/tree/main/transformer
生成视频:输入文字,输出画面
准备好后,就可以用sample.py脚本生成视频了,只需提供文字描述就可以
项目地址:
https://github.com/test-time-training/ttt-video-dit