每日学术速递12.27

AiCharm

发布于 2024-12-27 19:34:12

1050

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Power by Kimi&苏神编辑丨AiCharm

Subjects: cs.CV

1.HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding

标题：HoVLE：通过整体视觉语言嵌入释放整体视觉语言模型的力量

作者：Chenxin Tao, Shiqian Su, Xizhou Zhu, Chenyu Zhang, Zhe Chen, Jiawen Liu, Wenhai Wang, Lewei Lu, Gao Huang, Yu Qiao, Jifeng Dai

文章链接：https://arxiv.org/abs/2412.16158

项目代码：https://huggingface.co/OpenGVLab/HoVLE

摘要：

大型语言模型（ LLMs ）的快速发展促进了视觉语言模型（VLM）的发展。整体式 VLM 避免了特定于模态的编码器，为组合式编码器提供了一种有前途的替代方案，但面临着性能较差的挑战。大多数现有的整体 VLM 需要调整预先训练的LLMs以获得视觉能力，这可能会降低其语言能力。为了解决这个难题，本文提出了一种名为 HoVLE 的新型高性能单片 VLM。我们注意到，当图像嵌入与文本嵌入对齐时， LLMs已被证明能够解释图像。当前单体 VLM 面临的挑战实际上在于缺乏用于视觉和语言输入的整体嵌入模块。因此，HoVLE 引入了一个整体嵌入模块，将视觉和文本输入转换为共享空间，允许LLMs以与文本相同的方式处理图像。此外，精心设计了多阶段训练策略来增强整体嵌入模块的能力。它首先经过训练，从预先训练的视觉编码器中提取视觉特征，并从LLM中提取文本嵌入，从而能够使用不成对的随机图像和文本标记进行大规模训练。整个模型进一步对多模态数据进行下一个标记预测以对齐嵌入。最后，合并了指令调整阶段。我们的实验表明，HoVLE 在各种基准上的性能接近领先的组合模型，大大优于以前的整体模型。此 https URL提供模型。

这篇论文试图解决什么问题？

这篇论文提出了一个名为HoVLE（Holistic Vision-Language Embedding）的新型单体视觉-语言模型（monolithic Vision-Language Model），旨在解决现有单体VLMs（Vision-Language Models）性能不如组合型VLMs（compositional VLMs）的问题。具体来说，论文试图解决以下几个关键问题：

单体VLMs的性能挑战：相较于组合型VLMs，单体VLMs通常需要调整预训练的大型语言模型（LLMs）以获得视觉处理能力，这可能会降低它们处理语言的能力。HoVLE通过引入一个全新的整体嵌入模块（holistic embedding module），使得LLMs能够像处理文本一样处理图像，从而避免了对预训练LLMs的直接调整，保持了语言处理能力的同时增强了视觉处理能力。
缺乏统一的视觉-语言嵌入空间：现有的单体VLMs缺乏一个能够将视觉和语言输入统一到共享空间的嵌入模块，这限制了它们在多模态任务中的表现。HoVLE通过其整体嵌入模块，将图像和文本输入转换到一个共享的嵌入空间中，使得LLMs能够以统一的方式处理这两种模态。
训练策略的优化：为了提升整体嵌入模块对视觉和语言编码能力，HoVLE设计了一个多阶段训练策略。这个策略首先通过知识蒸馏（distillation）阶段赋予模块基本的视觉和语言编码能力，然后通过自回归训练（auto-regressive training）对齐不同模态，最后通过指令调优（instruction tuning）阶段增强模型的整体能力。
与组合型VLMs的性能差距：通过在多个基准测试中的实验，HoVLE显示出与领先的组合型VLMs相当的性能，并大幅度超越了以往的单体VLMs，从而缩小了单体和组合型VLMs之间的性能差距。

总结来说，这篇论文主要关注如何通过创新的整体嵌入模块和多阶段训练策略，提升单体VLMs的性能，使其能够与组合型VLMs竞争，并在多模态任务中取得更好的表现。

论文如何解决这个问题？

论文通过以下几个关键步骤解决了单体视觉-语言模型（monolithic VLMs）性能不如组合型视觉-语言模型（compositional VLMs）的问题：

1. 引入整体嵌入模块（Holistic Embedding Module）

HoVLE提出了一个整体嵌入模块，该模块能够将视觉和语言输入转换到一个共享的嵌入空间，使得大型语言模型（LLMs）能够像处理文本一样处理图像。这个模块由与LLM相同的因果Transformer层组成，可以接受图像和文本作为输入，并将它们投影到统一的嵌入空间中。

2. 多阶段训练策略

为了赋予整体嵌入模块视觉和语言编码能力，论文设计了一个多阶段训练策略：
- 蒸馏阶段（Distillation Stage）：在这个阶段，整体嵌入模块被训练以从预训练的视觉编码器中提取视觉特征，以及从LLM中提取文本嵌入。这一阶段不需要成对的图像-文本数据，而是使用大规模的未配对随机图像和文本令牌作为输入。
- 对齐阶段（Alignment Stage）：在这个阶段，整体嵌入模块与LLM结合，对多模态数据执行下一个令牌预测，以进一步对齐视觉和语言嵌入到统一空间。
- 指令调优阶段（Instruction Tuning Stage）：最后，通过指令调用来增强整个模型的能力，使其能够更好地遵循指令。

3. 实现细节

HoVLE采用了InternLM21.8B作为LLM的主干网络，并使用8个因果Transformer层构成整体嵌入模块。图像补丁嵌入层的步长设置为28，输出维度为2048，文本嵌入的词汇量为92553。

4. 评估和比较

论文在17个公共基准测试中评估了HoVLE的性能，并与之前的单体VLMs和组合型VLMs进行了比较。结果表明，HoVLE在多个基准测试中达到了与领先组合型VLMs相近的性能，并且大幅度超越了以前的单体VLMs。

通过这些方法，HoVLE能够有效地缩小单体VLMs和组合型VLMs之间的性能差距，并证明了单体VLMs在多模态任务中的潜力和可行性。

论文做了哪些实验？

文中进行了广泛的实验来评估HoVLE的性能，并与现有的单体VLMs和组合型VLMs进行比较。以下是实验的关键部分：

1. 实施细节

网络架构：HoVLE使用了InternLM21.8B作为LLM的主干网络，整体嵌入模块由8个因果Transformer层组成。
训练过程：在三个阶段中使用了不同的数据集和超参数，包括随机采样的图像、随机文本索引、多模态数据集和指令调优数据集。

2. 主要结果

性能比较：HoVLE在17个多模态基准测试中与先前的单体VLMs和组合型VLMs进行了比较。结果显示HoVLE在多个基准测试中达到了与领先组合型VLMs相近的性能，并且大幅度超越了以前的单体VLMs。

3. 消融研究

整体嵌入深度：研究了不同深度的整体嵌入模块对模型性能的影响。
训练策略：分析了不同训练阶段对模型性能的影响，包括蒸馏阶段、对齐阶段和指令调优阶段。
蒸馏数据规模：探讨了不同规模的蒸馏数据对模型性能的影响。
蒸馏阶段的文本数据选择：比较了使用配对和随机文本数据在蒸馏阶段的效果。

4. 分析

可视化：通过注意力图可视化分析了HoVLE与其它模型在LLM的不同层之间的差异。
速度-性能权衡：报告了HoVLE在不同输入分辨率下的推理速度和性能权衡。

5. 评估基准

论文评估了HoVLE在多个领域的17个公共基准测试中的表现，包括多模态感知和推理、视觉问题解答、OCR和相关的视觉问题解答、场景理解、科学图像理解和数学推理等。

这些实验结果证明了HoVLE的有效性，并展示了其在不同任务和条件下的性能。通过这些实验，论文得出结论，HoVLE能够与组合型VLMs竞争，并显著超越了以往的单体VLMs。

论文的主要内容：

这篇论文的主要内容包括以下几个方面：

问题陈述：
- 论文指出，尽管单体视觉-语言模型（monolithic VLMs）在架构上更为简单，且避免了特定于模态的编码器，但它们在性能上落后于组合型视觉-语言模型（compositional VLMs）。
HoVLE模型介绍：
- 为了解决单体VLMs性能不足的问题，论文提出了一个名为HoVLE（Holistic Vision-Language Embedding）的新型高性能单体VLM。
- HoVLE引入了一个整体嵌入模块，将视觉和文本输入映射到共享嵌入空间，使语言模型能够像处理文本一样处理图像。
多阶段训练策略：
- 蒸馏阶段：使用大规模未配对的随机图像和文本数据来提取视觉特征和文本嵌入。
- 对齐阶段：结合整体嵌入模块和LLM进行自回归训练，以对齐不同模态。
- 指令调优阶段：进一步优化整个模型以更好地遵循指令。
- 论文设计了一个多阶段训练策略来增强整体嵌入模块的视觉和语言编码能力：
实验结果：
- 通过在17个多模态基准测试中的实验，论文展示了HoVLE与领先组合型VLMs相当的性能，并大幅度超越了之前的单体VLMs。
消融研究和分析：
- 论文进行了消融研究来验证不同设计选择对HoVLE性能的影响，包括嵌入深度、训练策略和蒸馏数据规模等。
- 通过注意力图可视化分析了HoVLE与其它模型在LLM的不同层之间的差异。
结论和未来工作：
- 论文得出结论，HoVLE缩小了单体VLMs和组合型VLMs之间的性能差距，并为单体VLMs的发展提供了一个有前景的方向。
- 论文还提出了未来工作的方向，包括模型扩展到更大规模、多语言和跨模态能力的提升，以及模型解释性、鲁棒性和安全性的增强。

总体而言，这篇论文提出了一个创新的单体VLM模型HoVLE，并通过一系列实验验证了其有效性，为视觉-语言模型的研究提供了新的思路和方法。

2.Personalized Representation from Personalized Generation

标题：个性化生成的个性化表征

作者： Shobhita Sundaram, Julia Chae, Yonglong Tian, Sara Beery, Phillip Isola

文章链接：https://arxiv.org/abs/2412.16156

项目代码：https://personalized-rep.github.io/

摘要：

现代视觉模型擅长通用下游任务。然而，目前尚不清楚它们如何用于个性化视觉任务，这些任务既细粒度又缺乏数据。最近的工作已成功地将合成数据应用于通用表示学习，而 T2I 扩散模型的进步使得仅从几个真实示例即可生成个性化图像。在这里，我们探索这些想法之间的潜在联系，并形式化使用个性化合成数据来学习个性化表示的挑战，这些表示对有关感兴趣对象的知识进行编码，并且可以灵活地应用于与目标对象相关的任何下游任务。我们针对这一挑战引入了一个评估套件，包括对两个现有数据集的重新表述以及为此目的明确构建的一个新数据集，并提出了一种创造性地利用图像生成器的对比学习方法。我们表明，我们的方法改进了从识别到分割的各种下游任务的个性化表示学习，并分析了对于这一成果至关重要的图像生成方法的特征。

这篇论文试图解决什么问题？

这篇论文探讨了如何利用个性化合成数据来学习个性化表示（personalized representations），以应对个性化视觉任务中数据稀缺和细粒度识别的挑战。具体来说，论文试图解决的问题是如何从有限的真实数据中学习到能够灵活应用于各种下游任务的个性化表示。这些个性化表示能够编码关于感兴趣对象的知识，并且可以针对特定的对象或实例进行定制化处理。

论文中提到，现代视觉模型在通用下游任务上表现出色，但对于个性化视觉任务——尤其是那些需要细粒度识别且数据稀缺的场景——如何利用这些模型仍然是一个未明确的问题。因此，论文的主要目标是探索合成数据在个性化表示学习中的潜力，并提出相应的方法来改善个性化任务的性能。

论文如何解决这个问题？

论文通过以下步骤解决使用有限真实数据学习个性化表示的问题：

1. 个性化合成数据生成（Personalized Synthetic Data Generation）

使用T2I扩散模型：利用DreamBooth方法，通过少量真实样本对一个T2I（Text-to-Image）扩散模型进行微调，以生成更多关于特定实例的新图像。
控制生成数据集属性：通过调整分类器自由引导（Classifier-Free Guidance, CFG）和使用大型语言模型（LLM）生成的描述来控制生成数据的多样性和真实性。

2. 表示学习（Representation Learning from Synthetic Data）

对比学习：使用对比损失（如infoNCE损失）在真实和合成数据上微调预训练的视觉模型，以学习将特定实例的图像拉近，将其他实例的图像推远的表示。
特征提取：使用预训练模型的特征，通过对比真实图像和合成图像的特征来训练个性化表示。

3. 考虑额外注释和数据（Alternatives to DreamBooth）

分割掩码：如果用户提供了分割掩码，可以使用简单的生成模型（如Cut-and-Paste）来创建合成数据，并利用掩码来改进DreamBooth生成的数据。
互联网可用的真实数据：用户可以从互联网下载开源的真实数据集，以提供真实负样本和背景。
额外的真实正样本：用户可以收集更多目标对象的真实图像，以扩展用于Cut/Paste和DreamBooth生成的数据集。

4. 实验和评估（Experiments and Evaluation）

数据集：创建和使用专门的数据集（如PODS）来评估个性化表示在分类、检索、检测和分割等任务上的性能。
性能比较：比较个性化表示与预训练模型在多个数据集和任务上的性能，以验证个性化表示的有效性。

5. 结果和讨论

性能提升：展示了个性化表示在多个任务中的性能提升。
数据生成方法比较：分析了不同数据生成方法（如DreamBooth和Cut/Paste）的优缺点，并讨论了它们对学习表示的影响。

通过这些步骤，论文提出了一种利用合成数据来学习个性化表示的方法，并通过实验验证了其有效性。这种方法允许用户仅使用少量真实样本就能训练出能够识别和处理特定对象的模型，这对于数据稀缺的个性化视觉任务尤为重要。

论文做了哪些实验？

论文中进行了一系列实验来评估和验证所提出方法的性能和有效性。以下是实验的具体内容：

数据集

DeepFashion2 (DF2): 用于衬衫类别的实例级检索、检测和分割。
DogFaceNet (Dogs): 用于狗的识别，包含多个相同品种的不同狗的图像。
Personal Object Discrimination Suite (PODS): 新构建的数据集，包含100个不同类别的个人和家庭物品，用于分类、检索、检测和分割任务。

训练

使用不同的视觉模型作为backbone，包括DINOv2-ViT B/14、CLIP-ViT B/16和MAE-ViT B/16。
对这些模型使用LoRA（Low-Rank Adaptation）进行微调，并使用infoNCE损失函数。

评估

分类 (Classification): 计算测试图像与训练图像之间的余弦相似度，使用PR-AUC作为评估指标。
检索 (Retrieval): 使用NDCG指标评估检索性能。
分割 (Segmentation): 通过计算局部特征的余弦相似度生成局部置信图，然后应用阈值化和上采样得到分割预测，使用mask AP和F1分数作为评估指标。
检测 (Detection): 与分割类似，但额外提取包围盒预测，使用AP和F1分数作为评估指标。

实验结果

个性化表示与预训练表示的比较: 展示了使用个性化合成数据训练的模型在多个任务和数据集上相比预训练模型的性能提升。
不同数据生成方法的比较: 比较了仅使用真实数据、Cut-and-Paste方法、Masked DreamBooth以及它们的组合在不同任务上的性能。
额外注释和数据的影响: 探讨了收集额外的真实负样本、背景和正样本对性能的影响。
不同数据集对表示的影响: 分析了不同生成方法（如DreamBooth和Cut/Paste）的优缺点，并讨论了它们对学习表示的影响。

讨论

性能提升: 论文展示了个性化表示在多个任务中的性能提升，并讨论了不同数据生成方法的性能和计算成本之间的权衡。
数据集的影响: 论文还讨论了不同数据集特性如何影响学习到的表示，以及如何根据这些特性选择最佳的训练数据。

这些实验全面评估了所提出方法的有效性，并提供了对如何改进个性化表示学习的深入见解。通过这些实验，论文证明了利用合成数据来学习个性化表示的潜力，并为未来的研究提供了有价值的基准和资源。

论文的主要内容：

这篇论文主要探讨了如何利用合成数据来学习个性化的视觉表示，以便在数据稀缺的情况下进行细粒度的识别任务。以下是论文的主要内容总结：

问题背景

现代视觉模型在通用任务上表现出色，但在个性化视觉任务上面临挑战，尤其是那些需要细粒度识别且数据稀缺的场景。

研究目标

提出一种方法，利用少量真实样本和合成数据来训练能够适应多样化下游任务的个性化表示。

方法论

个性化合成数据生成：
- 使用T2I扩散模型（如DreamBooth）基于少量真实样本生成更多关于特定实例的图像。
- 通过调整分类器自由引导（CFG）和使用大型语言模型（LLM）生成的描述来控制生成数据的多样性和真实性。
表示学习：
- 使用对比学习（如infoNCE损失）在真实和合成数据上微调整备模型，学习区分特定实例的表示。
- 利用预训练模型的特征，通过对比真实图像和合成图像的特征来训练个性化表示。
考虑额外注释和数据：
- 探索使用分割掩码、互联网可用的真实数据和额外收集的真实图像来增强合成数据。

实验

使用三个数据集（DeepFashion2、DogFaceNet和PODS）评估个性化表示在分类、检索、检测和分割任务上的性能。
比较个性化表示与预训练模型的性能，并分析不同数据生成方法的影响。

结果

个性化表示在多个任务中普遍优于预训练模型。
合成数据方法（尤其是结合了真实数据的方法）在性能上显著优于仅使用真实数据的方法。
不同的生成方法（如DreamBooth和Cut/Paste）具有不同的优势和局限性。

结论

利用合成数据学习个性化表示是可行的，并且可以显著提高个性化任务的性能。
该方法为用户在保持数据隐私的同时训练定制化模型提供了一种有效的途径。

未来工作

论文提出了未来研究的方向，包括改进合成数据的质量、优化对比学习策略、探索不同的网络架构和训练策略等。

这项研究为个性化视觉任务提供了新的视角，并展示了合成数据在解决数据稀缺问题中的潜力。

3.MotiF: Making Text Count in Image Animation with Motion Focal Loss

标题：MotiF：通过运动焦点损失使文本在图像动画中发挥作用

作者：Shijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun, Xi Yin

文章链接：https://arxiv.org/abs/2412.16153

项目代码：https://wang-sj16.github.io/motif/

摘要：

文本图像到视频（TI2V）生成旨在根据文本描述从图像生成视频，也称为文本引导图像动画。大多数现有方法都很难生成与文本提示很好地对齐的视频，特别是在指定运动时。为了克服这一限制，我们引入了 MotiF，这是一种简单而有效的方法，可将模型的学习引导到运动较多的区域，从而改善文本对齐和运动生成。我们使用光流生成运动热图，并根据运动强度对损失进行加权。这种修改后的目标带来了显着的改进，并补充了利用运动先验作为模型输入的现有方法。此外，由于缺乏评估 TI2V 生成的多样化基准，我们提出了 TI2V Bench，一个由 320 个图像文本对组成的数据集，用于稳健评估。我们提出了一种人类评估协议，要求注释者在两个视频之间选择总体偏好，然后给出其理由。通过 TI2V Bench 的综合评估，MotiF 优于 9 个开源模型，获得了 72% 的平均偏好度。

这篇论文试图解决什么问题？

这篇论文试图解决的主要问题是在文本引导的图像动画（Text-Image-to-Video, TI2V）生成中，如何提高视频与文本提示的对齐度，尤其是在涉及运动描述时。具体来说，论文中提到现有方法在生成与文本提示一致的视频时存在挑战，尤其是在需要生成特定运动时。这些方法往往忽视了文本的引导作用，导致生成的视频运动有限，并且过于依赖图像条件，从而产生了所谓的“条件图像泄露”问题。为了克服这些限制，论文提出了一个名为MotiF（Motion Focal Loss）的方法，旨在指导模型更多地关注视频中运动较多的区域，从而改善文本对齐和运动生成。

论文如何解决这个问题？

论文通过以下几个关键步骤来解决文本引导的图像动画（TI2V）生成中视频与文本提示对齐度不足的问题：

引入 Motion Focal Loss (MotiF)：
- 论文提出了一种名为 Motion Focal Loss (MotiF) 的新方法，该方法通过引导模型关注视频中运动较多的区域来改善文本对齐和运动生成。
- MotiF 的灵感来源于目标检测中的 Focal Loss，使用光流生成运动热图（motion heatmap），表示视频中每个像素点的运动强度。
- 利用运动热图对损失函数进行加权，使得模型在训练过程中更加关注运动区域，从而提高对文本提示中运动信息的响应。
生成运动热图：
- 使用 RAFT 算法计算连续帧之间的光流强度，并通过 Sigmoid 函数归一化，生成运动热图。
- 运动热图用于指示视频中哪些区域有显著的运动，模型在这些区域的训练损失会被加权，以增强模型对运动的学习。
改进图像条件机制：
- 分析了常用的图像条件机制，并发现将条件图像与扩散输入进行拼接对于图像和文本对齐都有很好的效果。
- 与一些方法通过降低图像条件的强度来转移模型焦点到文本不同，MotiF 通过显式地优化训练目标，鼓励模型关注视频中运动更多的区域。
创建新的基准数据集 TI2V Bench：
- 由于缺乏适合评估 TI2V 生成的数据集，论文提出了一个新的基准数据集 TI2V Bench，包含 320 对图像-文本对，覆盖 22 种不同场景。
- 该数据集旨在提供更全面和具有挑战性的评估，包括引入新对象和细粒度对象引用等复杂场景。
人类评估协议：
- 论文提出了一个人类评估协议，要求评估者在两个视频中选择一个整体偏好，并根据几个维度（如图像对齐、文本对齐、对象运动和整体质量）来证明他们的选择。
- 通过这种方式，可以更可靠地评估 TI2V 生成方法的性能，并详细检查结果。

通过这些方法，论文展示了 MotiF 在文本对齐和运动质量方面的显著改进，并在与多个现有方法的比较中取得了平均 72% 的偏好率。

论文做了哪些实验？

论文中进行了一系列实验来验证MotiF方法的有效性，具体包括：

与先前方法的比较：
- 论文对比了MotiF与九个开源的TI2V生成方法，这是迄今为止最全面的TI2V人类评估。
- 通过确保公平比较，遵循每个方法的预处理和后处理流程，并确保生成的视频在相同的分辨率下是自然的。
人类评估：
- 使用Amazon Mechanical Turk进行人类评估，要求评估者在观看两个视频后做出选择，并基于四个不同的方面（对象运动、与文本提示的对齐、与起始图像的对齐、整体质量）来证明他们的选择。
- 对于每组比较，要求5名评估者进行评估，并执行多数投票。
- 使用整体偏好作为TI2V得分。
消融研究：
- 运动焦点损失（Motion Focal Loss）：验证了MotiF与没有使用Lmotif的基线模型相比的效果，并尝试了将运动热图的逆应用于Lmotif的Inv-motion损失，以验证显式建模高运动区域对TI2V生成的有效性。
- 图像条件：探讨了不同的图像条件整合方法，包括仅使用交叉注意力（cx-attn）和/或将图像潜码与噪声视频潜码进行拼接（x-cat）。
不同设计选择的消融研究：
- 论文还探讨了不同的设计选择，如不同的运动焦点损失权重λ对TI2V Bench的影响。
自动评估：
- 在Animate Bench数据集上进行了自动评估，提供了与先前工作的比较，并指出了自动评估指标的局限性。
附加消融研究和定量评估：
- 探讨了使用不同的运动热图生成方法（如SAM 2模型）的效果，并研究了不同权重λ对模型性能的影响。
附加可视化：
- 提供了与基线模型的更多定性结果比较，并分析了失败案例。

这些实验全面评估了MotiF方法在不同方面的表现，并与现有技术进行了比较，验证了其在文本对齐和运动质量方面的改进。通过消融研究和自动评估，论文还探讨了不同设计选择对模型性能的影响。

论文的主要内容：

本文主要介绍了一种名为MotiF（Motion Focal Loss）的新方法，旨在改善文本引导的图像动画（Text-Image-to-Video, TI2V）生成任务中视频与文本提示的对齐问题。以下是文章的主要内容总结：

问题陈述：
- 在TI2V任务中，现有方法难以生成与文本提示紧密结合的视频，特别是在需要指定运动时。
MotiF方法：
- 提出了MotiF，一种通过关注视频中运动区域来改善文本对齐和运动生成的方法。
- 使用光流生成运动热图，然后根据运动强度加权损失函数，使模型训练时更关注运动区域。
TI2V Bench数据集：
- 由于缺乏评估TI2V生成的多样化基准，论文提出了TI2V Bench，一个包含320对图像-文本对的数据集，覆盖22种不同场景。
人类评估协议：
- 采用A-B测试的人类评估协议，要求评估者在两个视频中选择偏好，并根据多个维度（图像对齐、文本对齐、对象运动、整体质量）证明选择。
实验结果：
- 通过与九个开源模型的比较，MotiF在人类评估中取得了平均72%的偏好率，显示出其在文本对齐和运动质量方面的显著改进。
消融研究：
- 进行了消融研究来验证MotiF的不同组件，如运动焦点损失和图像条件方法的有效性。
结论与未来工作：
- MotiF在改善文本引导的图像动画方面显示出潜力，但生成具有连贯运动的高质量视频仍然是一个挑战，尤其是在涉及多个对象或新对象出现的场景中。