文章/答案/技术大牛

发布

图生视频来到超低显存时代？敏神的又一力作——FramePack

文章来源：企鹅号 - 每天读

以下文章来源于吱呀的海风，作者阿酱

一、关于敏神

在介绍FramePack之前，先了解下其主要贡献者，敏神Lvmin Zhang。

听人说起敏神，你可能不是太了解，但说起其主导开发的的ControlNet技术，那在AI领域如雷贯耳。其诞生，标志着文本到图像生成领域在可控性方面迈出了关键一步，为用户提供了前所未有的精细控制能力。笔者也是在看到ControlNet，意识到了AI领域的图片生成技术，不仅仅是个玩具，而是开始有生产力了。

ControlNet 的问世不仅获得了计算机视觉领域最高荣誉之一的 Marr Prize，更因其开源、高效和实用性，被全球开发者和创作者社区迅速采纳，深度集成到主流 AI 工具生态中，极大地推动了可控生成技术的普及和应用。它赋能了艺术家和设计师，使其能够以前所未有的精度驾驭 AI 进行创作，同时也为相关领域的学术研究开辟了新的方向，催生了大量后续创新。

而前不久，敏神又和Maneesh Agrawala推出了FramePack。FramePack旨在直接应对长视频生成中的核心瓶颈，其核心目标是在不牺牲过多上下文信息的前提下，高效处理大量视频帧，从而为生成更长、更连贯的AI视频铺平道路。这不仅仅是又一个视频生成模型，而是针对该领域一个公认痛点提出的精巧解决方案。

二、FramePack解析

近年来，人工智能驱动的视频生成技术取得了惊人的进展，点燃了从创意内容制作到物理世界模拟等众多应用领域的想象力。我们目睹了AI从文本或图像生成短视频片段的能力日益增强，其视觉效果和连贯性不断提升。

然而，当我们将目光投向生成更长、更复杂的视频时，挑战也随之浮现。当前主流方法在处理长序列时，往往面临两大核心难题：一是如何维持视频内容在时间维度上的长期一致性，避免前后情节或视觉元素的“遗忘”；二是计算资源消耗随着视频帧数的增加而急剧增长，使得长视频的训练和生成变得异常困难。

而FramePack正是敏神提出的解法。

对于普通爱好者来说，其主要吸引力体现在：

使用 13B 模型生成 1 分钟视频 30fps，显存只要 6GB 即可

RTX 4090 的生成速度为 2.5 秒/帧（未优化）或 1.5 秒/帧（teacache）。

为何长视频生成如此“昂贵”？

要理解FramePack的价值，首先需要深入探究长视频生成所面临的具体障碍。

其一是困扰序列生成模型的“遗忘问题”(forgetting problem)。在逐帧生成视频的过程中，模型需要依赖先前已生成的帧作为上下文。随着视频长度增加，模型需要“记住”的信息越来越多。然而，许多模型的记忆能力有限，尤其是对于时间跨度较远的早期帧信息，很容易在后续生成中丢失，导致视频内容出现不连贯、主题漂移甚至情节矛盾等问题。

这种“遗忘”背后，往往与计算复杂性密切相关。当前许多先进的视频生成模型，特别是基于扩散模型(Diffusion Models) 和Transformer架构（如DiT ）的模型，依赖于注意力机制(Attention Mechanism) 来捕捉帧间关系。标准Transformer的注意力计算复杂度与其处理的序列长度（在这里即上下文帧数 N）成平方关系。这意味着，哪怕只是少量增加需要处理的帧数，计算量和内存需求都会爆炸式增长。即便有如FlashAttention等优化技术，当视频序列变得非常长时，将所有历史帧都纳入上下文进行计算仍然是不可行的。这构成了长视频生成的“计算壁垒”。

此外，视频数据本身存在显著的时间冗余(temporal redundancy)。相邻帧之间的大部分视觉内容是相似甚至重复的。如果简单地将所有原始帧信息无差别地输入模型，不仅计算成本高昂，效率也非常低下，因为模型花费了大量计算力在处理冗余信息上。这表明，一种更智能、能够区分信息重要性的上下文管理策略是必要的，而不仅仅是暴力增加计算资源。

FramePack揭秘

面对上述挑战，FramePack提出了一种创新的解决方案。

FramePack并非一个完全独立的生成模型，而是一种可以集成到现有模型中的神经网络结构(neural network structure) 。

FramePack的核心理念在于对输入模型的历史帧进行智能压缩，从而将送入Transformer注意力层进行计算的上下文总长度控制在一个固定的或有界的范围内，使其不再随原始视频长度无限增长。它像一个“抗遗忘记忆结构”(anti-forgetting memory structure)，通过保留关键历史信息的同时，有效规避了计算复杂度的陷阱。

基于重要性的渐进式压缩

FramePack的关键创新之一在于它区别对待不同重要性的历史帧。在预测下一帧（或下一段帧）时，并非所有历史帧都同等重要。通常，时间上更接近当前预测目标的帧，其包含的相关信息也越多。

基于此，FramePack对历史帧应用了渐进式压缩(progressive compression)。重要性较低（例如时间上较远）的帧会受到更大力度的压缩。具体实现上，这种压缩是通过操纵Transformer输入层的patchify（图像分块）操作的核大小(kernel size) 来完成的。例如，对于时间上越靠前的历史帧（即距离当前预测目标越远的帧），其patchify的核尺寸就越大，从而减少代表该帧的token数量，实现更强的压缩。

这种渐进式压缩可以用下表来形象地理解（以时间邻近度作为重要性标准）：

注：Lf 代表未压缩帧的上下文长度。压缩参数 λ>1 控制压缩速率。

这样做的直接结果是，即使历史帧的数量 T 不断增加，所有历史帧压缩后的总上下文长度 Lhistory 会趋向于一个固定的上限值，而不会无限增长。因此，加上当前需要预测的 S 帧的长度，总的Transformer上下文长度 L 也保持在一个可控的范围内。

这种上下文长度与视频时长的解耦，正是FramePack能够处理远超以往帧数的关键所在。它直接有效地缓解了因上下文长度限制而导致的“遗忘问题”，因为模型能够保留经过压缩的、时间跨度更长的历史信息，从而捕捉长期依赖关系。

抗漂移采样策略

除了上下文长度限制，顺序生成视频的另一个主要挑战是“曝光偏差”(exposure bias) 或称误差累积(error accumulation)。在逐帧预测的模式下，模型在生成当前帧时是基于之前模型自己生成的帧。如果某一步的预测出现微小偏差，这个偏差就可能被带入下一步的预测中，并可能被逐渐放大。随着生成序列变长，这种累积误差会导致视频内容逐渐偏离原始意图或真实分布，产生时序漂移(temporal drift)，严重影响长视频的生成质量。

针对这个问题，FramePack还提出了配套的创新点二：抗漂移采样方法(anti-drifting sampling methods) 。其核心思想是打破严格的、单向的、逐帧生成的因果链条。

论文中提到了几种具体的抗漂移采样策略：

先生成端点帧，再填充中间内容：例如，先确定视频的起始帧和结束帧，然后基于这两个“锚点”来生成中间的过渡帧。

反向时序采样(inverted temporal sampling)：即从后往前生成视频帧。在生成每一帧时，都试图去逼近一个已知的、高质量的参考帧（例如，在图像到视频任务中，可以是用户提供的输入帧）。

这些方法通过引入双向上下文信息(bi-directional context) 或建立早期锚点(early-established endpoints)，为生成过程提供了更强的约束，有助于将整个生成序列“锚定”在正确的轨道上，减少误差累积导致的漂移现象，从而提升长视频的时间一致性和整体质量。这表明FramePack不仅关注如何容纳更多上下文信息（通过压缩），还关注如何更有效地利用这些信息来指导生成过程本身（通过采样策略），体现了对视频生成中不同层面问题的综合考量。

三、项目效果

安装地址 https://github.com/lllyasviel/FramePack

在项目地址下载win平台的一键安装包，使用update.bat更新，点击run.bat运行，初次运行时会自动下载所需模型，需要30GB的空间。

安装完后上传所需的图片，输入prompt和相关参数即可运行。

案例一

案例二：ChatGPT 4o+FramePack

结合ChatGPT 4o强大的图片生成能力与FramePack高效的图生视频能力，可以很高效的做一些有趣的视频。可以在GPT4o Prompt收集库中看下有意思的图片，然后以此生成视频收集库地址如下：https://github.com/ImgEdify/Awesome-GPT4o-Image-Prompts

在其中找了个比较有意思的Prompt计划做一个黛玉葬花的视频

除了笔者的测试外，可在官方网站查看更多的效果案例：https://github.com/lllyasviel/FramePack

四、参考资料

项目地址: https://github.com/lllyasviel/FramePack?tab=readme-ov-file

项目介绍: https://lllyasviel.github.io/frame_pack_gitpage/

项目论文: https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf

GPT4o Prompt收集库: https://github.com/ImgEdify/Awesome-GPT4o-Image-Prompts

发表于: 2025-04-212025-04-21 02:02:42
原文链接：https://page.om.qq.com/page/OZYWTIlQyJF2ZyuG0zMFo_mA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

图生视频来到超低显存时代？敏神的又一力作——FramePack

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐