首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >主题一致超越所有开源与商业模型!中科大&字节开源统一创新框架BindWeave

主题一致超越所有开源与商业模型!中科大&字节开源统一创新框架BindWeave

作者头像
AI生成未来
发布2025-11-17 18:42:50
发布2025-11-17 18:42:50
1480
举报

作者:Zhaoyang Li等

解读:AI生成未来

论文链接:https://arxiv.org/pdf/2510.00438 项目链接:https://lzy-dot.github.io/BindWeave/

亮点直击

  • BindWeave:针对现有视频生成技术在主题一致性方面的瓶颈,提出了一个专为主题一致性视频生成设计的新型框架。
  • 引入多模态大语言模型作为深度指令解析器。 使用MLLM替代传统的浅层融合机制,实现了深度跨模态语义关联
  • 构建统一交织序列与隐状态生成机制。将参考图像与文本提示整合成统一序列,有效衔接高层语义解析与扩散生成过程
  • 多模态条件融合机制。 形成高层推理+语义身份+底层细节的协同条件机制,全面提升生成质量。
  • 在opens2v上,通过主题一致性、时序自然度、文本-视频对齐等全面评估;在主题一致性视频生成任务中持续超越所有现有开源与商业模型,达到SOTA。
  • 展示出广泛的科研与商业应用潜力。

总结速览

效果一览

单人:

多人:

人+实体:

解决的问题

  • 核心瓶颈: 现有视频生成模型难以解析和理解提示词中复杂的空间关系、时序逻辑和多主体交互
  • 具体缺陷: 导致生成的视频在主题一致性上表现不足,即无法在视频中稳定、准确地保持特定主体的身份、属性和相互关系。

提出的方案

  • 核心框架: 提出了一个名为 BindWeave 的统一创新框架。
  • 核心思路:多模态大语言模型(MLLM) 作为智能指令解析器,取代传统的浅层融合机制,实现对提示词的深度语义理解与跨模态关联。
  • 实现路径:
    • 构建统一序列: 将参考图像和文本提示整合成交织序列输入MLLM。
    • 深度解析与绑定: 利用MLLM解析复杂时空关系,将文本指令锚定到具体视觉实体,并生成编码了主体身份和交互关系的“主题感知隐状态”。
    • 多条件协同生成: 将上述隐状态与参考图像的CLIP特征(强化语义锚定)和VAE特征(保留细节)共同作为条件,输入到基于扩散Transformer(DiT) 的生成器中,指导视频生成。

应用的技术

  • 多模态大语言模型(MLLM): 作为核心的深度跨模态推理引擎。
  • 扩散Transformer(DiT): 作为基础的视频生成骨干模型。
  • 多源条件融合机制: 创新性地融合了三种条件信号:
    • MLLM输出的隐状态(提供高层推理和交互关系)。
    • CLIP图像特征(提供语义层面的身份锚定)。
    • VAE图像特征(提供像素级别的外观细节)。
  • 基准数据集: 在细粒度的 OpenS2V 基准上进行评测。

达到的效果

  • 性能卓越:OpenS2V 基准测试中,在主题一致性、时序自然度和文本-视频对齐等关键指标上均取得了优越性能。
  • 业界领先: 全面超越了现有的主流开源方法和商业模型,达到了最先进的性能水平
  • 质量优异: 定性结果(图示)表明,生成的视频样本具有极高的保真度主题一致性
  • 应用潜力: 展现出在科研和商业视频生成领域的巨大应用潜力。

方法

架构设计

本文提出的BindWeave旨在克服主题一致性视频生成中浅层融合范式的局限性。该方法的核心原理是在生成过程开始前,通过深度推理理解多模态输入来替代浅层的事后融合。为此,BindWeave首先利用多模态大语言模型作为智能指令解析器。该MLLM通过生成引导范式——具体实现为编码复杂跨模态语义和时空逻辑的隐状态序列,进而在整个合成过程中精确指导扩散Transformer。下图2展示了BindWeave架构的示意图。

基于MLLM的智能指令规划

为有效促进文本提示与参考图像间的跨模态联合学习,本文引入了统一的多模态解析策略。给定文本提示和个用户指定的主体(每个主体对应参考图像),本文通过在每个文本提示后追加图像占位符来构建多模态序列。随后向MLLM提供该序列及对应的图像列表:

其中⟨img⟩ₖ是MLLM内部与第k张图像对齐的特殊占位符标记。这种保留文本描述与其对应视觉主体间关键上下文联系的统一表示,随后被输入到预训练的MLLM中。通过处理多模态输入,MLLM生成隐状态序列,该序列体现了对场景的高层推理,有效将文本指令与其特定视觉身份进行绑定:

为使冻结MLLM与扩散模型的特征空间对齐,这些隐状态通过可训练的轻量级连接器进行投影,从而生成特征对齐的条件:

虽然这个由MLLM衍生的条件提供了宝贵的高层跨模态推理信息,但本文认识到扩散模型也经过高度优化以解析细粒度的文本语义。为提供这种互补信号,本文使用T5文本编码器对原始提示进行独立编码,以生成专用的文本嵌入:

本文随后将这两个互补流进行拼接,形成最终的关系条件信号:

这个复合信号不仅封装了显式的文本指令,还包含了对主体交互和时空逻辑的深度推理,为后续生成阶段奠定了坚实基础。

集体条件化视频扩散

在指令规划过程中,本文将有用的语义信息整合到中。现在需要将作为条件注入DiT模块以指导视频生成。本文的生成骨干网络在预训练时空变分自编码器的潜在空间中运行。为确保高保真度和一致的视频生成,本文采用集体条件化机制来协同整合多路信息。如前文所述,本文的集体条件化机制同样在两个协同层级运行:条件化时空输入和交叉注意力机制。

为保持参考图像的细粒度外观细节,本文设计了自适应多参考条件化策略(如下图3所示)。

具体而言,本文将参考图像编码为低级VAE特征,记为。由于主题视频生成与图像到视频生成存在差异,参考图像不被视为实际视频帧。本文首先扩展含噪视频潜在表示的时间轴,用零填充个额外位置:。随后将参考图像的VAE特征放置在这个填充的时间位置上(其余位置为零),并沿通道维度拼接相应的二值掩码以强调主体区域。通过通道维度拼接后经块嵌入处理,得到DiT模块的最终输入:

其中和在个填充时间槽之外为零,并仅在这些槽内携带参考条件。这种设计保持了原始视频的时间完整性,同时通过通道级条件化注入了细粒度外观和主体增强信息。

随后,高层语义引导通过交叉注意力层注入。这涉及两个不同的信号:来自MLLM的关系条件用于场景构图,以及CLIP图像特征用于主体身份。在每个DiT块内,演化的视频令牌生成查询向量。条件信号和被投影形成各自的键值矩阵。注意力层的最终输出是这些信息流的求和,扩展了公式4:

其中和分别通过线性投影层从和推导得出。通过以这种结构化方式整合高层关系推理、语义身份引导和底层外观细节,BindWeave有效引导扩散过程生成不仅视觉上忠实于主体,而且在逻辑和语义上与复杂用户指令保持一致的视频。

训练与推理

训练设置:遵循前文所述的修正流公式,本文的模型被训练用于预测真实速度场。BindWeave的整体训练目标可表述为模型输出与之间的均方误差:

本文的训练数据选自公开可用的500万规模OpenS2V-5M数据集。通过一系列过滤策略,最终提炼出约100万个高质量视频-文本对。随后基于该数据采用两阶段课程学习策略进行训练。所有训练过程均在512个xPU上开展,全局批大小为512,使用恒定学习率5e-6和AdamW优化器。初始稳定阶段持续约1000次迭代,使用从100万数据中精选的优质代表性子集。该阶段对于使模型适应主题到视频任务的特定需求至关重要,主要侧重于学习在保持主体视觉身份真实性的同时使其与文本运动指令对齐,为后续大规模训练奠定坚实基础。随后训练转入全面阶段并持续5000次迭代,模型在此阶段接触全部100万精选数据。第二阶段使模型能在稳定基础上进一步扩展,通过更广泛的高质量样本学习,显著提升生成能力与泛化性能。

推理设置:在推理过程中,本文的BindWeave可接受灵活数量的参考图像(通常为1-4张),同时通过文本提示描述目标场景与行为来引导生成。与Phantom方法类似,本文在推理时使用提示词改写器以确保文本准确描述所提供的参考图像。生成过程采用修正流轨迹执行50步采样,并通过尺度因子为的无分类器引导技术进行指导。每一步的引导噪声估计量计算如下:

其中是基于提示的条件噪声预测,是无条件预测。该估计值随后由调度器用于推导。

实验

实验设置

基准与评估指标:为确保公平比较,采用OpenS2V-Eval基准并遵循其官方评估协议,该协议对主题到视频生成进行主题一致性和身份保真度的细粒度评估。该基准包含七个不同类别的180个提示,涵盖从单一主体到多主体及人-物交互的场景。为量化性能,本文报告该协议的自动化指标,所有指标分数越高代表结果越好。这些指标包括衡量视觉吸引力的美学评分、时序平滑度的运动平滑度、运动幅度的运动幅度以及身份保持的面部相似度。本文还使用了OpenS2V-Eval引入的三个与人类感知高度相关的指标:主题一致性的NexusScore、自然度的NaturalScore和文本-视频相关性的GmeScore。

实现细节:BindWeave基于DiT架构的基础视频生成模型进行微调。本评估不包括文本到视频和图像到视频的预训练阶段。对于核心指令规划模块,本文采用Qwen2.5-VL-7B作为多模态大语言模型。为使多模态控制信号与DiT条件空间对齐,本文引入了轻量级连接器来投影Qwen2.5-VL的隐状态。具体而言,该连接器采用具有GELU激活函数的双层MLP结构。本文使用Adam优化器训练模型,学习率为5e-6,全局批大小为512。为减轻复制粘贴伪影,本文对参考图像应用数据增强技术。在推理过程中,本文使用50步去噪,并将无分类器引导尺度设置为5。

基线方法:将BindWeave与最先进的视频定制方法进行比较,包括开源方法和商业产品。

定量结果

本文在OpenS2V-Eval基准上进行了全面比较,如下表1所示,跨多种场景提供了广泛而严格的评估。遵循基准协议,每种方法生成180个视频进行评估以确保统计可靠性并覆盖所有类别。本文报告了前文所述的八项自动指标以确保全面评估,从而统一捕捉视觉质量、时序行为和语义对齐。如下表1所示,BindWeave在总体得分上达到了新的SOTA,其中NexusScore显著领先,凸显了其在主题一致性方面的优势。值得注意的是,NexusScore旨在解决先前全局帧CLIP或DINO比较的局限性,提供基于语义且抗噪声的评估,能更好反映感知身份保真度。它通过检测后比较策略实现这一目标:首先定位真实目标,裁剪相关区域以抑制背景干扰,然后在基于检索的多模态特征空间中计算相似度,最后聚合已验证裁剪区域的得分以获得可靠总结。重要的是,BindWeave在其他指标上也保持强劲竞争力,包括面部相似度、美学评分、GmeScore、运动相关指标以及自然度,这些分别反映了其在身份保持、视觉吸引力、文本-视频对齐、时序连贯性与运动幅度以及跨广泛提示和类别的整体自然度方面的优势。

定性结果

为清晰展示本文方法的有效性,在下图4和下图5中呈现了一些典型的主题到视频场景,包括单人体到视频、人-物到视频、单物体到视频和多实体到视频。如下图4左面板所示,Vidu、Pika、Kling和Hailuo等商业模型能生成视觉吸引人的视频,但在主题一致性方面存在困难。在开源方法中,SkyReel-A2在主题一致性上相对具有竞争力,但其整体视觉美学落后于本文的BindWeave。VACE和Phantom同样表现出较弱的主题一致性。在下图4右面板中,本文的方法实现了显著更优的主题一致性、文本对齐和视觉质量。如下图5左面板所示,在单物体到视频场景中,Vidu和Pika等商业模型仍表现出明显的物理和语义合理性违反——本文将其总结为“常识违反”。Kling实现了强大的视觉美学但主题一致性较差。SkyReels-A2显示出严重失真和同样薄弱的主题一致性,Phantom也难以保持主题一致性。在基线方法中,VACE能较好保持主题一致性但运动连贯性和自然度有限。相比之下,本文的BindWeave在提供强大主题一致性的同时,还实现了自然连贯的运动。值得注意的是,在下图5右面板所示的多对象和复杂指令设置下,Vidu和Pika等方法经常遗漏关键提示,Kling表现出严重的物理不合理性,MAGREF未能保持主题一致性;其他基线方法也忽略了关键提示细节。相比之下,本文的结果在保持强大主题一致性的同时呈现出细粒度细节。本文将此归因于BindWeave通过MLLM显式整合参考图像和文本提示的跨模态能力,能联合解析实体、属性和对象间关系。因此,BindWeave保留了微妙而关键的细节,并构建统一、时序一致的场景规划以指导连贯生成。这种深度跨模态整合可靠地强化了关键提示元素,并为多实体交互嵌入基本物理常识,从而减少不合理结果。

消融研究

本文对结合MLLM与T5派生信号以指导DiT生成的控制条件化机制进行消融实验。比较了仅使用T5的基线方案与本文的T5+Qwen2.5-VL组合方案。值得注意的是,仅使用MLLM的方案在训练过程中不稳定且未能收敛,因此未纳入定量分析。如下表2所示,T5+Qwen2.5-VL组合在美学质量、运动表现、自然度及文本相关性方面均持续优于仅T5方案。下图6的定性对比进一步验证了这一发现:当参考图像存在尺度失配时,仅T5基线倾向于生成不真实的主体尺寸,且在复杂指令下经常错误解析动作-对象关系,而T5+Qwen2.5-VL组合能保持准确 grounding 并执行预期交互。本文将这些提升归因于互补条件化机制——MLLM提供多模态的身份与关系感知线索以消除主体歧义并提升时序连贯性,而T5则提供精确的语言 grounding 以稳定优化过程。两者的拼接为DiT产生了更丰富可靠的控制信号。

结论

BindWeave——一个新颖的主题一致性视频生成框架,通过显式跨模态整合技术在单主体与多主体场景中生成具备一致性、文本对齐且视觉吸引力的视频。通过采用MLLM深度融合参考图像与文本提示信息以促进联合学习,BindWeave有效建模实体身份、属性及关系,从而实现细粒度 grounding 与强健的主体保持能力。实证结果表明,BindWeave已完整掌握跨模态融合知识,能够生成高保真度的主题一致性视频。在OpenS2V基准测试中,BindWeave实现了最先进的性能表现,超越现有开源方案与商业模型,充分彰显其技术优势。总体而言,BindWeave为主题视频生成任务提供了全新视角,并为未来在一致性、真实感与可控性方面的突破指明了方向。

参考文献

[1] BINDWEAVE: SUBJECT-CONSISTENT VIDEO GENERATION VIA CROSS-MODAL INTEGRATION

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 总结速览
  • 效果一览
  • 单人:
    • 解决的问题
    • 提出的方案
    • 应用的技术
    • 达到的效果
  • 方法
    • 架构设计
    • 基于MLLM的智能指令规划
    • 集体条件化视频扩散
    • 训练与推理
  • 实验
    • 实验设置
    • 定量结果
    • 定性结果
  • 消融研究
  • 结论
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档