首页
学习
活动
专区
圈层
工具
发布

《猫和老鼠》更新了?!还有方言版本...

我们先看看下面的视频

上面这1分钟以上的视频看着如何?是不是还以为是原版更新了

有很多网友甚至还搞出了方言版本!

其实上面的都是AI生成的!

视频生成难题!

在视频生成领域,如何让一段只有几秒钟的演示扩展到一分多钟,同时还能保持连贯的风格与内容,是很困难的

而ttt-video-dit就是为解决这两个问题而生的工具,就是上面两个视频使用的框架!

它如何做到的?

它基于扩散 Transformer 架构,通过 "测试时训练(TTT)层" 捕捉视频的全局上下文关系,同时保留预训练模型的局部注意力能力,最终实现了 63 秒长视频的稳定生成。

简单说,这个项目让 AI 既能 "看到" 整个视频的全局逻辑(比如故事线),又能 "关注" 每 3 秒片段的细节(比如画面风格),从而生成既连贯又风格统一的长视频。

TTT-Video 基于 CogVideoX 5B 文本到视频的扩散变换器,本地部署要求就没有那么高了!

把原始模型的注意力层(attention layers)留作对每个 3 秒分段的“本地”处理,同时在这些段之间插入 TTT 层,用以建模全局的时序依赖。

手把手教你用

首先需要安装项目依赖,推荐用 conda(环境管理工具):

# 克隆项目代码git clone https://github.com/test-time-training/ttt-video-dit.gitcd ttt-video-dit# 创建并激活虚拟环境conda env create -f environment.yamlconda activate ttt-video# 安装核心组件(TTT-MLP kernel,需要CUDA 12.3+和gcc11+)git submodule update --init --recursivecd ttt-tk && python setup.py install

准备 "原材料":预训练模型

TTT-Video 需要基于 CogVideoX 的预训练权重进行微调,需要下载这些文件:

VAE 和 T5 编码器:按照CogVideoX 官方指南获取

https://github.com/zai-org/CogVideo/blob/main/sat/README.md

扩散模型权重:从HuggingFace下载两个safetensors文件(注意选 5B 版本,不是 2B)

https://huggingface.co/zai-org/CogVideoX-5b/tree/main/transformer

生成视频:输入文字,输出画面

准备好后,就可以用sample.py脚本生成视频了,只需提供文字描述就可以

项目地址:

https://github.com/test-time-training/ttt-video-dit

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OtkkU4mwkgWMr8fTHbQCMjsw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券