作者:Zhoujie Fu等
解读:AI生成未来

论文链接:https://arxiv.org/pdf/2511.20635 项目链接:https://kr1sjfu.github.io/iMontage-web/

亮点直击
网络架构。 如下图2所示,本文采用混合到单流的多模态扩散Transformer,配合用于图像的3D VAE与用于文本指令的语言模型。所有组件均初始化自HunyuanVideo:MMDiT与3D VAE取自I2V检查点,文本编码器取自T2V检查点。参考图像经3D VAE分别编码后patch化为token;文本指令通过语言模型编码为文本token。遵循I2V范式,本文将干净的参考图像token与含噪目标token拼接后输入图像分支块。通过在其图像token上构建可变长度注意力图,并辅以提示工程引导,本文训练模型以适应可变数量的输入/输出帧。训练期间冻结VAE与文本编码器,仅全参数微调MMDiT。

位置编码。 关键目标是在不干扰原始位置几何的前提下使Transformer具备对多图像的感知能力。本文采用简洁有效的策略:将所有输入/输出图像视为时间轴上的伪帧,为每帧分配唯一时间索引,同时保持其原生空间分辨率与2D位置编码不变。具体而言,本文保留预训练的空间RoPE,并引入具有每帧索引偏移的可分离时间RoPE,在维持空间分布不变的前提下提供跨图像排序线索。受L-RoPE启发,本文将输入图像分配至较早时间位置,输出图像分配至较晚位置。实践中,本文分配具有32个时间索引的3D RoPE,保留用于输入,用于输出,在二者间留出宽时间间隔。此首尾布局减少了输入与目标间的位置干扰,经验证可在保持时序连贯性的同时促进更多样化的输出内容。
提示工程。 本文采用由强大LLM编码器驱动的纯文本指令接口,无需掩码或辅助视觉嵌入。为统一异构任务,本文将一组通用提示词与任务特定模板配对。对于通用提示词,本文(i)前置系统级引导语:"请根据指令输出张图像:";(ii)采用交错多模态格式,通过文本占位符<image n>在提示词中显式标记图像位置。
本文将数据构建分为两个阶段:预训练数据集与监督微调数据集。数据集构建概览参见下图3。

本文将预训练数据划分为两个池:图像编辑池与视频帧对池,均源自内部语料库。图像编辑池覆盖多数单图像编辑任务,提供配对的(输入,编辑后)图像及指定操作的简明细粒度指令。视频帧对池包含从视频中提取的高质量帧对(附带关联字幕),经严格质量筛选后收录。本文通过以下过滤标准进一步优化视频帧对:
对于来自同一片段的帧对,本文采用光流估计器进行运动过滤:对每个样本计算平均运动幅度,优先保留或加权高运动实例以提升其占比。为增强动态多样性,本文将同一源视频的片段拼接后重新裁剪(不依赖运动或摄像机变化启发式规则),从而生成跨过渡帧对并缓解准静态内容偏好。
过滤后数据集包含500万图像编辑对与1500万视频帧对,为高动态内容生成与鲁棒指令遵循提供监督信号。
本文的多任务数据集基于任务构建,涵盖一对一至多对多任务。各任务的数据构建流程如下:
多条件参考。 本文爬取网络帖子收集人物、物体及场景的参考图像。通过检测器将人物图像过滤为单人镜头;物体/场景图像无需额外过滤。VLM通过随机组合源数据生成条件参考提示词,GPT-4o生成对应图像,再由VLM评分筛选候选样本。该流程产出约9万高质量样本。
条件化参考。 与条件参考数据集不同,本文从开源数据集Echo-4o收集数据。本文对目标图像应用经典ControlNet生成控制图:使用OpenPose[5]生成组合图像的人物姿态,通过DepthAnything-V2生成目标图像深度图,并采用Lineart模型作为边缘检测器。本文将这些条件对添加至Echo-4o,创建约5万样本的新条件参考数据集。
风格参考。 本文参照条件参考方法构建风格参考数据:爬取人物帖子并通过VLM美学评分[1]筛选人物图像作为内容参考,从开源资源收集手绘插画作为风格参考。使用主体-风格模型随机配对内容与风格生成图像,再由VLM对输出评分并检查与内容图像的身份一致性以防止风格泄露。此流程产出3.5万样本。
多轮编辑。 本任务要求根据指令同时生成多个响应,其中子步骤指令覆盖预训练图像编辑数据集中的所有编辑任务。本文从内部数据集提取数据,收集约10万样本。
多视图生成。 本文从开源3D语料库MVImageNet V2构建多视图数据集。对每个基础样本,随机选择1-4个附加视角,按连续顺序使用GPT-4o描述相邻图像间的相对相机运动,为多视图生成提供简洁监督。本文收集约9万样本。
故事板生成。 故事板生成与叙事生成设定密切相关,但更强调画格间的高多样性,例如剧烈的场景变化和跨图像的角色动作差异。借助近期商业基础模型Seedream4.0,本文通过其输出蒸馏高质量监督信号以构建指令-图像序列用于训练。本文从内部角色图像数据集出发,应用人脸检测过滤器与NSFW过滤器获取全脸角色参考图像。随后设计指令模板引导Seedream4o生成语义丰富、动态变化的场景与多画格故事。生成图像通过GPT-4o标注描述,产生简洁的故事板(指令,图像)对作为监督信号。本文收集约2.9万样本。
本文采用三阶段训练策略,动态混合使用前述构建的数据集:包括大规模预训练阶段、监督微调阶段与高质量退火阶段:
预训练阶段。 本阶段使用预训练数据集进行训练,以灌输指令遵循能力并使模型适应高动态内容。由于本文从预训练骨干网络初始化,因此摒弃渐进分辨率调度[7,16,18];转而采用宽高比感知的分辨率分桶策略:对每个样本,从37种标准分辨率集合中选择最佳匹配尺寸并相应调整。本阶段批次大小根据序列长度动态调整,均衡不同分辨率间的token预算,从而实现更平滑稳定的优化。
监督微调阶段。 本文在此阶段探索统一具有巨大方差的多任务的最佳方案。本文的策略可总结如下: • 混合训练: 全任务联合训练。在单一混合池中共同训练所有任务。 • 分阶段训练:课程学习。 两阶段计划:先训练三个多对一任务,随后加入三个多输出任务继续混合训练。 • 鸡尾酒式混合训练: 按难度排序的微调。本文观察到各任务存在显著训练难度差异,促使本文按难度进行混合训练。实践中从最简单任务开始,随后引入次简单任务同时降低首任务采样权重,持续每次添加一个更难任务并逐步调整混合权重,直至最难任务被纳入并获得最大训练份额。
最终本文选择鸡尾酒式混合训练策略,相关讨论详见消融研究。所有混合训练中,本文根据各任务数据量施加权重,确保所有任务被平等对待。本阶段允许输入图像采用不同分辨率,同时为便利性固定输出分辨率。因输入图像分辨率可变,本文在整个监督微调阶段设置单GPU批次大小为1。
高质量阶段。 在图像与视频生成中,普遍观察到使用小批量高质量数据结束训练可提升最终保真度[39,64,71]。本文采用该策略:通过人工审核与VLM辅助相结合,为每个任务筛选高质量子集,随后在监督微调后进行跨所有任务的简短统一微调。此阶段本文将学习率退火至零。
所有实验均在64张NVIDIA H800 GPU上开展。各训练阶段均采用恒定学习率,训练目标遵循流匹配。
作为统一模型,iMontage在各类任务中均展现强劲性能,即使与固定输入/输出模型相比亦不逊色。需注意本文的模型仅需一次推理,默认使用50扩散步数。为清晰起见,本文按输入-输出基数组织结果:分为一对一编辑、多对一生成与多对多生成。
本文在基于指令的图像编辑任务中报告具有竞争力的量化指标与引人注目的定性结果。本文对比了十二个强基线模型,包括原生图像编辑模型、统一多模态大语言模型及强大闭源产品。在GEdit基准与ImgEdit基准上的平均指标见表1。除闭源模型与商业模型外,iMontage在两个基准上均超越其他模型展现强劲性能。
本文同时在下表1中报告运动相关子任务的指标。本文方法展现出卓越的运动感知编辑能力,具有强时序一致性与运动先验。这些增益符合预期:本文从大型预训练视频骨干网络继承强大的世界动态知识,并通过高动态视频-帧语料库的预训练予以强化。一对一图像编辑可视化结果见下图6与下图7。



多输入的核心挑战在于如何保留全部内容并实现和谐融合。在OmniContext基准上报告结果,该基准旨在全面评估模型上下文生成能力。本文对比七个基线模型的指标,详细指标见下表2。本文在补充材料中可视化代表性结果,表明iMontage在保持源图像上下文的同时处理多样化任务。本文选取挑战性案例以强调控制力与保真度:在多条件参考任务中,模型融合多参考线索而不改变核心内容,同时通过生成高细节背景忠实遵循复杂指令;在条件化参考任务中,模型尊重条件信号且保留人物细节(这对生成模型通常较难);在风格参考任务中,本文包含场景中心与人物/物体中心输入以展示保持风格与身份的强风格迁移能力。

在保持一致性的同时生成多输出极具挑战性。本文通过要求跨输出内容一致性与时序一致性进一步提高标准。为评估能力,本文考虑三个不同任务:
多视图生成。 本文模拟摄像机旋转,使用摄像机运动的自然语言描述从单参考图像渲染新视角。此时序连续设定用于探查模型在视角变化时是否保持身份、几何、材质及背景上下文。本文报告跨视图的身份/结构一致性,并可视化长旋转弧以强调连续性。所有可视化结果见下图10。

多轮编辑。 多数图像编辑器通过顺序运行推理支持多轮流程,但常出现漂移问题(覆盖非目标内容)。本文将多轮编辑视为内容保持任务:给定初始图像与编辑指令序列,模型应定位变化同时维持其他部分。所有可视化结果见上图7。
故事板生成。 这是本文最全面的设定:时序方面,模型需生成平滑连续的轨迹,同时处理高动态转换(如硬切、大幅摄像机或主体运动及场景变化);空间方面,需通过保持所有输出间的身份、布局与细粒度外观来维持内容一致性。
如补充材料中可视化结果所示,iMontage在单次前向传播中为所有三种设定生成连贯且高度多样化的结果。据本文所知,这是首个在单一模型与单次推理中统一这些任务的模型。
为更好量化多输出能力,本文在故事板设定下进行量化研究,对比本文的方法与两个统一系统(OmniGen2和UNO)及一个叙事聚焦基线StoryDiffusion。本文聚焦两个维度:身份保持与时序一致性。前者度量每个生成角色与参考身份的匹配度(特别是角色全身细节,如衣物、肤色、发型),后者捕捉生成图像间的跨画格连贯性。评估中,被测的OmniGen2与UNO模型经UMO[11]优化以改进身份保持等质量指标。指标方面,本文采用DINO与CLIP特征相似度及VLM评分系统。对比评分见下表3,可视化对比见下图4。


此外,为更全面评估,本文开展含50位专业参与者的用户研究。对比指标见下表4。本文的方法在指令遵循与身份保持上均获最佳性能,显著超越基线。

RoPE策略。 本文首先消融RoPE策略设计:默认边际RoPE将输入分配至时间索引范围首部、输出分配至尾部,其间留有空隙;对照策略均匀RoPE将所有图像均匀分布在时间轴。本文在预训练数据集子集(仅少量数据)上使用相同设置进行消融研究。观察到均匀RoPE在相同训练步数下收敛较晚。下图5展示了RoPE消融研究的可视化结果。

训练方案。 如前文所述,本文消融三种监督微调策略:混合训练中训练损失剧烈振荡且不稳定,经若干更新后模型即使采用逆尺寸重加权仍会漂移至更简单任务;本文同步开展分阶段训练与鸡尾酒式混合训练实验,前者按任务类型分组训练,后者按任务难度组织计划。鸡尾酒式混合训练在所有任务上均取得强劲结果,并在困难设定上展现明显优势,显著超越分阶段训练。本文在多条件参考任务上开展等训练步数的对比实验,结果显示鸡尾酒式混合训练在OmniContext上获得12.6%提升。
iMontage——一个统一的多对多图像生成模型,能在保持时序与内容一致性的同时创造高动态内容。充分实验证明了iMontage在图像生成上的卓越能力。
iMontage仍存在局限:首先受数据与算力限制,本文未探索长上下文多对多设定,模型当前在最多四输入四输出时呈现最佳质量;其次部分能力仍受限。在后文中提供详细分类与失败案例,并纳入更多同期工作讨论。下一步,本文将扩展长上下文监督、提升数据质量及拓宽任务覆盖范围作为未来工作的主要方向。
[1] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation