《猫和老鼠》更新了？！还有方言版本...

文章来源：企鹅号 - AI变革指南

我们先看看下面的视频

上面这1分钟以上的视频看着如何？是不是还以为是原版更新了

有很多网友甚至还搞出了方言版本！

其实上面的都是AI生成的！

视频生成难题！

在视频生成领域，如何让一段只有几秒钟的演示扩展到一分多钟，同时还能保持连贯的风格与内容，是很困难的

而ttt-video-dit就是为解决这两个问题而生的工具，就是上面两个视频使用的框架！

它如何做到的？

它基于扩散 Transformer 架构，通过 "测试时训练（TTT）层" 捕捉视频的全局上下文关系，同时保留预训练模型的局部注意力能力，最终实现了 63 秒长视频的稳定生成。

简单说，这个项目让 AI 既能 "看到" 整个视频的全局逻辑（比如故事线），又能 "关注" 每 3 秒片段的细节（比如画面风格），从而生成既连贯又风格统一的长视频。

TTT-Video 基于 CogVideoX 5B 文本到视频的扩散变换器，本地部署要求就没有那么高了！

把原始模型的注意力层（attention layers）留作对每个 3 秒分段的“本地”处理，同时在这些段之间插入 TTT 层，用以建模全局的时序依赖。

手把手教你用

首先需要安装项目依赖，推荐用 conda（环境管理工具）：

# 克隆项目代码git clone https://github.com/test-time-training/ttt-video-dit.gitcd ttt-video-dit# 创建并激活虚拟环境conda env create -f environment.yamlconda activate ttt-video# 安装核心组件（TTT-MLP kernel，需要CUDA 12.3+和gcc11+）git submodule update --init --recursivecd ttt-tk && python setup.py install

准备 "原材料"：预训练模型

TTT-Video 需要基于 CogVideoX 的预训练权重进行微调，需要下载这些文件：

VAE 和 T5 编码器：按照CogVideoX 官方指南获取

https://github.com/zai-org/CogVideo/blob/main/sat/README.md

扩散模型权重：从HuggingFace下载两个safetensors文件（注意选 5B 版本，不是 2B）

https://huggingface.co/zai-org/CogVideoX-5b/tree/main/transformer

生成视频：输入文字，输出画面

准备好后，就可以用sample.py脚本生成视频了，只需提供文字描述就可以

项目地址：

https://github.com/test-time-training/ttt-video-dit

发表于: 30天前2025-08-04 06:00:17
原文链接：https://page.om.qq.com/page/OtkkU4mwkgWMr8fTHbQCMjsw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

《猫和老鼠》更新了？！还有方言版本...

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐