CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Power by Kimi&苏神 编辑丨AiCharm
Subjects: cs.CV
1.Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts
标题:时间旅行:评估历史和文化文物上 LMM 的综合基准
作者:Sara Ghaboura, Ketan More, Ritesh Thawkar, Wafa Alghallabi, Omkar Thawakar, Fahad Shahbaz Khan, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer
文章链接:https://arxiv.org/abs/2502.14865
项目代码:https://github.com/mbzuai-oryx/TimeTravel
摘要:
了解历史和文化文物需要人类专业知识和先进的计算技术,但这个过程仍然复杂且耗时。虽然大型多模态模型提供了有希望的支持,但它们的评估和改进需要一个标准化的基准。为了解决这个问题,我们推出了 TimeTravel,这是一个由 10,250 个专家验证样本组成的基准,涵盖 10 个主要历史地区的 266 种不同文化。TimeTravel 专为对手稿、艺术品、铭文和考古发现进行 AI 驱动的分析而设计,提供结构化数据集和强大的评估框架来评估 AI 模型在分类、解释和历史理解方面的能力。通过将 AI 与历史研究相结合,TimeTravel 为历史学家、考古学家、研究人员和文化游客提供了 AI 驱动的工具,以提取有价值的见解,同时确保技术为历史发现和文化遗产保护做出有意义的贡献。我们在 TimeTravel 上评估当代 AI 模型,突出它们的优势并确定需要改进的领域。我们的目标是将 AI 打造成保护文化遗产的可靠合作伙伴,确保技术进步为历史发现做出有意义的贡献。
这篇论文试图解决什么问题?
这篇论文试图解决的问题是如何有效地评估大型多模态模型(Large Multimodal Models, LMMs)在处理历史和文化文物方面的表现。尽管LMMs在视觉推理、感知和多模态理解方面取得了显著进展,但在处理具有历史维度的视觉数据,尤其是那些塑造人类文明的文物时,它们的能力仍然有限。现有基准主要关注现代物体、文化地标和文本资源,缺乏对历史文物的系统性评估。因此,作者提出了一个名为TimeTravel的基准,旨在评估AI模型在历史文物分析中的分类、解释和历史理解能力,以促进AI技术在历史研究和文化遗产保护中的应用。
论文如何解决这个问题?
论文通过以下方式解决了评估大型多模态模型(LMMs)在处理历史和文化文物方面表现的问题:
1. 构建TimeTravel基准 数据收集 :从博物馆收藏中精心挑选了10,250个样本,涵盖266个不同文化群体,跨越10个主要历史区域。这些样本包括手稿、艺术品、铭文和考古发现等,确保了数据的多样性和全面性。数据验证 :与历史学家和考古学家紧密合作,对每个记录的完整性和真实性进行验证,确保数据的准确性和历史完整性。图像-文本对生成 :利用GPT-4o模型根据现有元数据生成详细的、具有文化背景的文本描述,并将其与视觉内容配对,形成图像-文本对,增强了数据集的多模态特性。数据过滤和验证 :通过手动专家验证和自动化技术相结合的方式,对数据进行严格的过滤和验证,以消除不一致性、填补缺失细节,并验证历史记录的真实性。2. 设计评估框架 评估指标 :采用多种评估指标,包括BLEU、METEOR、ROUGE-L、SPICE、BERTScore和LLM-Judge,从不同角度评估生成文本的质量、准确性和相关性。模型评估 :对当前的闭源和开源LMMs进行评估,通过这些指标来衡量模型在生成历史文物描述方面的表现,识别它们的优势和改进空间。3. 提供详细分析 性能比较 :通过对比不同模型在TimeTravel基准上的表现,揭示了闭源模型在生成具有历史准确性的描述方面优于开源模型,但也指出了开源模型的快速进步。区域分析 :进一步分析了模型在不同地理区域的历史文物描述能力,发现某些模型在特定区域表现更好,这为模型的改进提供了具体的方向。4. 推动AI在历史研究中的应用 文化遗产保护 :通过AI技术生成详细的文物描述,TimeTravel基准为历史学家、考古学家和研究人员提供了一个强大的工具,有助于保护和研究文化遗产。教育和公众参与 :该基准还支持博物馆的数字化工作,使更广泛的公众能够接触和了解历史,促进了教育和文化传承。通过这些措施,论文不仅提供了一个全面的基准来评估LMMs在历史文物分析中的表现,还为未来的研究和应用奠定了基础,确保技术进步能够有意义地贡献于历史发现和文化遗产保护。
论文做了哪些实验?
论文中进行了以下实验来评估大型多模态模型(LMMs)在TimeTravel基准上的表现:
1. 数据集构建与验证 数据收集 :从博物馆收藏中收集了10,250个样本,涵盖266个不同文化群体,跨越10个主要历史区域。数据验证 :与历史学家和考古学家合作,对每个记录的完整性和真实性进行验证。图像-文本对生成 :利用GPT-4o模型根据现有元数据生成详细的、具有文化背景的文本描述,并将其与视觉内容配对。数据过滤和验证 :通过手动专家验证和自动化技术相结合的方式,对数据进行严格的过滤和验证。2. 模型评估 评估指标 :采用多种评估指标,包括BLEU、METEOR、ROUGE-L、SPICE、BERTScore和LLM-Judge,从不同角度评估生成文本的质量、准确性和相关性。模型选择 :选择了多种闭源和开源的LMMs进行评估,包括GPT-4o、Gemini、Llama、Qwen和Llava等。3. 实验结果 性能比较 :对不同模型在TimeTravel基准上的表现进行了详细比较。结果显示,闭源模型在生成具有历史准确性的描述方面优于开源模型,但也指出了开源模型的快速进步。区域分析 :进一步分析了模型在不同地理区域的历史文物描述能力,发现某些模型在特定区域表现更好。4. 详细分析 生成描述示例 :提供了多个模型生成的描述示例,展示了不同模型在描述历史文物时的细节和准确性差异。局限性分析 :讨论了模型在处理历史文物描述时的局限性,如对历史记录的不完整性和模糊性的处理,以及训练数据中的偏见对模型解释和描述文化文物的影响。这些实验不仅评估了当前LMMs在处理历史文物方面的表现,还揭示了它们的优势和改进空间,为未来的研究和应用提供了指导。
论文的主要内容:
论文介绍了一个名为TimeTravel的基准,用于评估大型多模态模型(LMMs)在处理历史和文化文物方面的能力。TimeTravel基准包含10,250个专家验证的样本,涵盖266个不同文化群体,跨越10个主要历史区域。该基准旨在评估AI模型在分类、解释和历史理解方面的能力,以促进AI技术在历史研究和文化遗产保护中的应用。
研究背景 大型多模态模型(LMMs)的进展 :近年来,LMMs在视觉推理、感知和多模态理解方面取得了显著进展,但在处理具有历史维度的视觉数据,尤其是历史文物方面,仍存在局限性。现有基准的不足 :现有基准主要关注现代物体、文化地标和文本资源,缺乏对历史文物的系统性评估。TimeTravel基准 数据收集 :从博物馆收藏中精心挑选了10,250个样本,涵盖266个不同文化群体,跨越10个主要历史区域。数据验证 :与历史学家和考古学家合作,对每个记录的完整性和真实性进行验证。图像-文本对生成 :利用GPT-4o模型根据现有元数据生成详细的、具有文化背景的文本描述,并将其与视觉内容配对。数据过滤和验证 :通过手动专家验证和自动化技术相结合的方式,对数据进行严格的过滤和验证。评估框架 评估指标 :采用多种评估指标,包括BLEU、METEOR、ROUGE-L、SPICE、BERTScore和LLM-Judge,从不同角度评估生成文本的质量、准确性和相关性。模型评估 :对多种闭源和开源的LMMs进行评估,包括GPT-4o、Gemini、Llama、Qwen和Llava等。实验结果 性能比较 :闭源模型在生成具有历史准确性的描述方面优于开源模型,但也指出了开源模型的快速进步。区域分析 :进一步分析了模型在不同地理区域的历史文物描述能力,发现某些模型在特定区域表现更好。结论 TimeTravel基准的有效性 :TimeTravel基准为评估LMMs在历史文物分析中的表现提供了一个全面的框架,揭示了当前模型的优势和局限性。AI在文化遗产保护中的潜力 :通过AI技术生成详细的文物描述,TimeTravel基准为历史学家、考古学家和研究人员提供了一个强大的工具,有助于保护和研究文化遗产。局限性与社会影响 数据质量的影响 :生成描述的质量取决于输入数据的完整性和准确性。在历史记录不完整或模糊的情况下,AI生成的文本可能缺乏完整的文化背景。训练数据中的偏见 :训练数据中的偏见可能影响模型对文化文物的解释和描述,需要持续评估和专家验证以确保历史准确性和文化敏感性。社会影响 :尽管存在挑战,该研究有助于文化遗产保护、教育普及和AI驱动的人文研究,通过数字化和丰富历史记录,促进公众对历史的参与和支持博物馆的数字化工作。2.IP-Composer: Semantic Composition of Visual Concepts
标题: IP-Composer:视觉概念的语义组合
作者:Sara Dorfman, Dana Cohen-Bar, Rinon Gal, Daniel Cohen-Or
文章链接:https://arxiv.org/abs/2502.14827
代码链接:https://ip-composer.github.io/IP-Composer/
摘要:
内容创建者通常从多个视觉来源中汲取灵感,结合不同的元素来制作新的构图。现代计算方法现在旨在模拟这一基本的创作过程。尽管最近的扩散模型擅长文本引导的合成合成,但文本作为一种媒介往往缺乏对视觉细节的精确控制。基于图像的合成方法可以捕获更细微的特征,但现有方法通常受限于它们可以捕获的概念范围,并且需要昂贵的训练程序或专用数据。我们介绍了 IP-Composer,这是一种用于合成图像生成的新颖的免训练方法,它同时利用多个图像引用,同时使用自然语言来描述要从每个图像中提取的概念。我们的方法建立在 IP-Adapter 的基础上,它合成了以输入图像的 CLIP 嵌入为条件的新图像。我们通过制作复合嵌入将这种方法扩展到多个视觉输入,从多个输入图像的投影拼接到通过文本识别的特定概念 CLIP 子空间上。通过综合评估,我们表明我们的方法可以对更大范围的视觉概念组合进行更精确的控制。
这篇论文试图解决什么问题?
这篇论文提出了一个名为IP-Composer的方法,旨在解决如何从多个视觉概念中合成新图像的问题。具体来说,它试图解决以下问题:
精确控制视觉细节 :现有的基于文本的图像合成方法虽然能够通过自然语言描述生成图像,但在控制视觉细节方面往往不够精确。例如,很难通过文本精确地描述一个场景中的光照、纹理或特定物体的外观。扩展图像合成的范围 :现有的基于图像的合成方法虽然能够捕捉复杂的视觉细节,但通常受限于它们能够处理的概念范围,或者需要针对每个概念进行昂贵的训练过程。这限制了它们的实用性和可扩展性。结合多个视觉概念 :内容创作者经常从多个视觉来源中汲取灵感,将不同的元素组合成新的构图。然而,现有的方法要么只能处理单一的视觉概念,要么在组合多个概念时存在困难,无法有效地将多个概念融合到一个连贯的图像中。为了解决这些问题,IP-Composer提出了一种新的训练无关的方法,它能够同时利用多个图像参考,并通过自然语言描述从每个图像中提取特定的概念,从而生成包含这些概念组合的新图像。
论文做了哪些实验?
论文中进行了多种实验来评估IP-Composer的性能和效果。以下是主要的实验内容和结果:
1. 定性结果(Qualitative Results) 多样的视觉概念合成 :展示了IP-Composer在多种视觉概念合成任务中的能力,包括但不限于:将主体插入到现有场景中。 根据时间条件生成图像。 转移纹理或服装。 模仿姿势。 这些任务涵盖了从布局影响的合成(如对象插入)到外观变化(如纹理转移)的不同类型。 多图像输入 :验证了IP-Composer不仅限于成对的输入,还可以处理多个条件组件的合成,尽管这受到嵌入空间维度的限制。文本条件结合 :展示了IP-Composer可以结合文本提示进行图像合成,利用IP-Adapter对文本条件的内置支持。2. 定性比较(Qualitative Comparisons) 与现有方法对比 :将IP-Composer与以下几种现有方法进行了定性比较:pOps :需要针对每个任务进行专门的训练,使用预训练的“scene”、“texturing”和“union”操作符。ProSpect :通过将图像分解为多个词嵌入来实现概念合成,需要针对每张图像进行优化。Describe & Compose :先使用视觉语言模型(VLM)描述每个图像中的概念,然后使用Composable-Diffusion根据文本描述生成新图像。比较结果 :IP-Composer在多个任务上与pOps取得了相当的结果,且无需专门的数据集或模型调整。与ProSpect相比,IP-Composer在处理布局变化和非自然分解的概念时表现更好。而基于描述的方法在传达每个概念的具体细节时存在显著的泄漏问题。3. 定量比较(Quantitative Comparisons) CLIP空间距离计算 :通过计算CLIP空间中目标概念描述与生成图像之间的距离,以及与非目标概念描述之间的距离,来评估IP-Composer的性能。目标概念相似度 :计算输入对中描述每个概念的文本与旨在结合它们的生成图像之间的CLIP空间距离。非目标概念泄漏 :计算与目标概念无关的图像属性描述与生成图像之间的CLIP空间相似度,较低的分数表明非目标属性未泄漏到输出中。结果 :IP-Composer在目标概念相似度上取得了高分,同时在非目标概念泄漏上取得了低分,表明其能够准确地合成目标概念,同时最小化不想要的泄漏。此外,通过调整方法的秩参数,可以进一步提升性能。4. 用户研究(User Study) 2AFC实验 :采用两替代强迫选择(2AFC)设置,向用户展示一对输入图像和一个目标概念的说明,然后展示由IP-Composer和基线方法生成的图像,让用户选择哪一个更好地结合了视觉概念。结果 :共收集了35名不同用户的560次响应,结果表明用户更倾向于选择IP-Composer生成的图像,证实了其在合成视觉概念方面的优势。5. 消融研究(Ablation Study) 不同组合方法对比 :研究了使用IP-Adapter进行组合生成的不同方法,包括:CLIP嵌入插值 :在两个输入图像的CLIP嵌入之间进行插值。IP-Adapter标记拼接 :将两个输入图像的IP-Adapter标记拼接后输入到扩散模型中。图像生成的子空间 :使用LLM生成的描述变体来生成图像,然后使用这些图像的CLIP嵌入来定义概念子空间。评估结果 :IP-Composer在避免概念泄漏和精确控制方面优于其他方法。图像生成的子空间方法由于生成的图像包含与提示无关的内容,导致了更多的泄漏。6. 多概念合成(Multi-Concept Composition) 逐步与多步合成 :研究了在合成多个概念时,是逐步合成(两两组合,逐步生成)还是多步合成(一次性组合多个概念)的效果。结果 :在某些情况下,多步合成可以减少不想要的特征的泄漏,但也增加了丢失输入图像细节的可能性,从而影响最终结果。7. 局限性(Limitations) 概念纠缠/解耦 :在CLIP和扩散模型的特征空间中,某些概念可能以意想不到的方式纠缠或解耦。例如,尝试将豹子的皮毛图案与斑马的身体结合时,可能会产生类似长颈鹿的特征。细节捕捉 :IP-Adapter在捕捉输入图像的细节方面存在限制,因此IP-Composer可能不足以捕捉精细的细节,如确切的身份信息。通过这些实验,论文全面评估了IP-Composer在视觉概念合成任务中的性能,并与现有方法进行了比较,证明了其在无需训练的情况下,能够有效地合成多种视觉概念,并在精确控制和概念泄漏方面表现出色。
论文的主要内容:
本文介绍了一种名为IP-Composer的新型训练无关方法,用于从多个视觉概念合成新图像。该方法通过自然语言描述从多个输入图像中提取特定概念,并将这些概念组合成新的图像。IP-Composer基于IP-Adapter,利用CLIP的语义子空间结构,通过文本描述识别与概念相关的子空间,并从输入图像中提取这些概念的嵌入,然后将它们组合成新的复合嵌入,以生成包含所需概念组合的图像。
背景知识 内容创作者通常从多个视觉源中汲取灵感,将不同的元素组合成新的构图。现有的方法要么基于文本描述,缺乏对视觉细节的精确控制;要么基于图像参考,但受限于能够处理的概念范围或需要昂贵的训练过程。 近期的研究表明,CLIP的注意力头跨越了CLIP嵌入空间的语义子空间,这些子空间可以通过找到与之对应的文本描述来表征。 研究方法 构建投影矩阵 :为了从输入图像中提取特定概念,IP-Composer首先使用大型语言模型(LLM)生成描述概念变体的文本集合,然后通过CLIP文本编码器将这些文本编码为嵌入向量。接着,对这些嵌入向量进行奇异值分解(SVD),提取出最显著的奇异向量,这些向量定义了概念的子空间。最后,使用这些奇异向量构建投影矩阵。图像合成 :将每个输入图像的CLIP嵌入投影到其对应的概念子空间中,提取出特定概念的嵌入。然后,将参考图像的嵌入与概念图像的嵌入进行组合,形成一个新的合成嵌入。这个合成嵌入保留了参考图像的大部分属性,同时替换了与概念相关的部分。最后,将合成嵌入传递给IP-Adapter,生成最终的合成图像。多概念合成 :IP-Composer可以扩展到多个概念的合成。对于多个概念,重复上述步骤,将每个概念图像的嵌入投影到其对应的概念子空间中,并将这些嵌入组合起来,形成一个包含多个概念的合成嵌入。实验 定性结果 :展示了IP-Composer在多种视觉概念合成任务中的能力,包括将主体插入到现有场景中、根据时间条件生成图像、转移纹理或服装、模仿姿势等。这些任务涵盖了从布局影响的合成到外观变化的不同类型。定性比较 :将IP-Composer与pOps、ProSpect和Describe & Compose等现有方法进行了定性比较。结果表明,IP-Composer在多个任务上与pOps取得了相当的结果,且无需专门的数据集或模型调整。与ProSpect相比,IP-Composer在处理布局变化和非自然分解的概念时表现更好。而基于描述的方法在传达每个概念的具体细节时存在显著的泄漏问题。定量比较 :通过计算CLIP空间中目标概念描述与生成图像之间的距离,以及与非目标概念描述之间的距离,来评估IP-Composer的性能。结果表明,IP-Composer在目标概念相似度上取得了高分,同时在非目标概念泄漏上取得了低分,表明其能够准确地合成目标概念,同时最小化不想要的泄漏。用户研究 :采用两替代强迫选择(2AFC)设置,向用户展示一对输入图像和一个目标概念的说明,然后展示由IP-Composer和基线方法生成的图像,让用户选择哪一个更好地结合了视觉概念。结果表明用户更倾向于选择IP-Composer生成的图像,证实了其在合成视觉概念方面的优势。消融研究 :研究了使用IP-Adapter进行组合生成的不同方法,包括CLIP嵌入插值、IP-Adapter标记拼接和图像生成的子空间。结果表明,IP-Composer在避免概念泄漏和精确控制方面优于其他方法。关键结论 IP-Composer能够在无需训练的情况下,从多个视觉概念中合成出新的图像,同时保持了概念的语义一致性和视觉细节的精确性。 该方法在多种视觉概念合成任务中表现出色,与现有的训练方法相比,具有更好的泛化能力和更高的效率。 IP-Composer通过自然语言描述选择要提取的概念,同时利用图像输入指定概念的具体实例,实现了对视觉细节的精确控制。 局限性 概念纠缠/解耦:在CLIP和扩散模型的特征空间中,某些概念可能以意想不到的方式纠缠或解耦。 细节捕捉:IP-Adapter在捕捉输入图像的细节方面存在限制,因此IP-Composer可能不足以捕捉精细的细节,如确切的身份信息。 3.LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
标题:LongWriter-V:在视觉语言模型中实现超长和高保真生成
作者:Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
文章链接:https://arxiv.org/abs/2502.14834
项目代码:https://github.com/THU-KEG/LongWriter-V
摘要:
现有的大型视觉语言模型 (LVLM) 可以处理上下文长度高达 128k 的视觉和文本标记的输入,但它们难以生成超过 1,000 个单词的连贯输出。我们发现,主要限制是在监督微调 (SFT) 期间没有长输出示例。为了解决这个问题,我们引入了 LongWriter-V-22k,这是一个由 22,158 个示例组成的 SFT 数据集,每个示例都有多个输入图像、一条指令和相应的输出,范围从 0 到 10,000 个单词。此外,为了实现保持对输入图像的高保真度的长输出,我们对 SFT 模型采用了直接偏好优化 (DPO)。鉴于为冗长的输出(例如,3,000 个单词)收集人工反馈的成本很高,我们提出了 IterDPO,它将长输出分成多个片段,并使用迭代更正与原始输出形成首选项对。此外,我们还开发了 MMLongBench-Write,这是一个具有六项任务的基准测试,用于评估 VLM 的长生成能力。我们的 7B 参数模型使用 LongWriter-V-22k 和 IterDPO 进行训练,在此基准测试中取得了令人印象深刻的性能,优于 GPT-4o 等大型专有模型。
这篇论文试图解决什么问题?
这篇论文试图解决现有大型视觉语言模型(Vision-Language Models, VLMs)在生成长文本输出时的局限性问题。尽管现有的VLMs能够处理长达128k视觉和文本token的上下文输入,但在生成超过1000词的连贯输出时却面临挑战。论文指出,主要问题是监督微调(Supervised Fine-Tuning, SFT)阶段缺乏长输出示例。为了解决这一问题,论文提出了以下方法:
构建长输出数据集 :创建了一个名为LongWriter-V22k的SFT数据集,包含22,158个示例,每个示例包含多个输入图像、一个指令以及对应的输出,输出长度从0到10,000词不等。改进输出质量 :采用直接偏好优化(Direct Preference Optimization, DPO)技术来提高长输出与输入图像的高保真度,并提出了一种迭代DPO(IterDPO)方法,通过将长输出分割成多个段落并进行迭代修正,形成偏好对,从而有效利用人类反馈来提高长输出的质量。开发基准测试 :开发了一个名为MMLongBench-Write的基准测试,包含六个任务,用于评估VLMs的长文本生成能力。论文如何解决这个问题?
论文通过以下三个主要步骤来解决现有大型视觉语言模型(VLMs)在生成长文本输出时的局限性问题:
1. 构建长输出数据集(LongWriter-V22k) 为了使VLMs能够生成长文本,论文首先构建了一个名为 LongWriter-V22k 的监督微调(SFT)数据集。该数据集包含 22,158 个示例,每个示例包含多个输入图像、一个指令以及对应的输出,输出长度从 0 到 10,000 词不等。具体步骤如下:
数据来源 :从 MMEvol 数据集中筛选出长输出指令图像对,并通过GPT-4o验证指令是否真正需要长输出以及图像与指令的相关性。多图像指令生成 :从MMEvol的子集中选择同一类别的图像,并生成需要长输出的多图像指令。反向翻译 :对部分数据进行反向翻译,以增强模型对指定字数要求的指令的处理能力。2. 提出迭代直接偏好优化(IterDPO) 为了提高长输出的质量,论文提出了一种迭代直接偏好优化(IterDPO)方法。具体步骤如下:
数据收集 :选择未包含在LongWriter-V22k中的幻灯片,让VLM生成脚本,并由人类专家对脚本进行修正。迭代偏好对生成 :将修正后的脚本按页面分割,将每一页的修正脚本视为一个偏好对,从而扩展偏好对的数量,使模型能够学习到更细粒度的人类反馈。3. 开发基准测试(MMLongBench-Write) 为了评估VLMs的长文本生成能力,论文开发了一个名为 MMLongBench-Write 的基准测试,包含六个任务,分为专业写作和创意写作两类。具体任务如下:
专业写作 :包括医疗报告、旅行指南、PPT脚本等任务,通常需要更多的输入图像和更长的输出长度。创意写作 :包括故事生成、电影评论等任务,通常不需要专业知识,但需要生成详细的文本。通过这些步骤,论文不仅扩展了VLMs的输出长度,还显著提高了长输出的质量,使其能够生成连贯、准确且符合用户要求的长文本。
论文做了哪些实验?
论文进行了以下实验来验证所提出方法的有效性:
1. 基准测试(MMLongBench-Write) 任务分类 :MMLongBench-Write包含六个任务,分为专业写作和创意写作两类。每个任务包含20个代表性指令,输入图像和期望的输出长度。数据分布 :图1展示了任务的输入图像数量和期望输出长度的联合分布,大多数数据要求输出长度超过1000词,挑战VLMs的长文本生成能力。2. 长输出能力测试(LongWrite-V-Ruler) 测试方法 :选择8个示例,分别要求生成500、1000、2000和4000词的文章,共32个测试提示。测试结果 :图2显示了不同模型在不同输出长度要求下的平均输出长度。结果表明,所有模型的输出长度存在一个上限,约为1000词。3. SFT数据对输出长度的影响 实验方法 :使用Qwen2-VL-7B-Instruct在三个不同平均输出长度(0.8k、1.8k和2.8k)的视觉指令数据集上进行微调。实验结果 :图3显示,模型的最大输出长度随SFT数据的平均输出长度增加而增加。此外,SFT数据中长输出示例的比例对模型的输出长度至关重要。4. 模型训练与评估 模型选择 :基于Qwen2.5-VL-7B-Instruct和Qwen2.5-VL-72B-Instruct两个开源VLMs进行训练。训练过程 :监督微调(SFT) :使用LongWrite-V-22k数据集对模型进行微调,训练了LongWriter-V-7B和LongWriter-V-72B两个模型。迭代直接偏好优化(IterDPO) :使用人类修正的偏好对和AI反馈的偏好对进行DPO训练,最终训练了LongWriter-V-7B-DPO模型。评估指标 :使用输出长度分数(Sl)和质量分数(Sq)评估模型性能,其中Sl衡量输出长度与要求长度的接近程度,Sq由GPT-4o根据六个方面(相关性、准确性、连贯性、清晰度、广度和深度、阅读体验)打分。评估结果 :表1展示了不同模型在MMLongBench-Write上的性能。LongWriter-V模型在长输出任务上表现优异,尤其是在[3000, 4000]词的输出范围内。LongWriter-V-7B-DPO在长度和质量分数上均优于其他模型,表明DPO方法有效提升了长输出的质量。5. 人类评估 评估方法 :选择四个模型(LongWriter-V-7B、LongWriter-V-7B-DPO、LongWriter-V-72B和GPT-4o-2024-08-06)的响应,让两名人类标注者在120个响应中选择他们更偏好的模型响应。评估结果 :图6显示,LongWriter-V-7B-DPO和LongWriter-V-72B在与GPT-4o-2024-08-06的比较中获得了更多的人类偏好票数,表明这些模型在实际人类偏好方面具有优势。6. 消融研究 SFT数据源的影响 :分别移除LongWrite-V-22k数据集中的单图像、多图像和反向翻译数据,观察对SFT模型性能的影响。结果表明,这些数据源对模型性能都有贡献,尤其是多图像数据,移除后会导致整体分数大幅下降。迭代DPO策略的有效性 :移除由迭代策略扩展的偏好对,结果表明,使用完整数据的DPO模型在质量分数和PPT任务分数上优于仅使用原始偏好对的模型。AI反馈对性能的影响 :仅使用人类修正的偏好对进行DPO训练,结果表明,混合AI反馈的模型性能更好,说明AI生成的偏好对可以提供额外的训练信号,提升模型性能。通过这些实验,论文验证了所提出方法在提升VLMs长文本生成能力方面的有效性。
论文的主要内容:
本文的核心内容是解决现有大型视觉语言模型(VLMs)在生成长文本输出时的局限性问题。尽管VLMs能够处理长达128k视觉和文本token的上下文输入,但在生成超过1000词的连贯输出时却面临挑战。论文通过构建新的数据集、提出新的训练方法和开发基准测试,显著提升了VLMs的长文本生成能力。
背景知识与研究动机 长上下文输入处理 :近期的研究主要集中在提升VLMs处理长上下文输入的能力,例如MMLongBench-Doc、LongDocURL、LongViTU、ShareGPT4Video、LongVideoBench和LVBench等基准测试和数据集,它们都旨在提升VLMs对长文档、视频等多模态长上下文的理解能力。长输出生成能力 :与长输出生成能力相关的研究相对较少。论文指出,尽管VLMs的输入上下文窗口长度已经显著增加,但其有效输出长度仍然有限,通常不超过1000个token。这与它们的最大输入上下文长度(超过16,000个token)相比,差距较大。模型对齐方法 :为了提升VLMs在短输出任务上的生成质量,一些研究提出了基于人类反馈的强化学习方法,如RLHF-V、RLAIF-V、POVID和MIA-DPO等。然而,这些方法主要针对短输出任务,没有探索如何有效地利用人类对长输出的修正反馈来对齐VLMs。研究方法 1. 构建长输出数据集(LongWriter-V22k) 数据来源 :从MMEvol数据集中筛选出长输出指令图像对,并通过GPT-4o验证指令是否真正需要长输出以及图像与指令的相关性。多图像指令生成 :从MMEvol的子集中选择同一类别的图像,并生成需要长输出的多图像指令。反向翻译 :对部分数据进行反向翻译,以增强模型对指定字数要求的指令的处理能力。2. 提出迭代直接偏好优化(IterDPO) 数据收集 :选择未包含在LongWriter-V22k中的幻灯片,让VLM生成脚本,并由人类专家对脚本进行修正。迭代偏好对生成 :将修正后的脚本按页面分割,将每一页的修正脚本视为一个偏好对,从而扩展偏好对的数量,使模型能够学习到更细粒度的人类反馈。3. 开发基准测试(MMLongBench-Write) 任务分类 :MMLongBench-Write包含六个任务,分为专业写作和创意写作两类。每个任务包含20个代表性指令,输入图像和期望的输出长度。数据分布 :图1展示了任务的输入图像数量和期望输出长度的联合分布,大多数数据要求输出长度超过1000词,挑战VLMs的长文本生成能力。实验 1. 基准测试(MMLongBench-Write) 任务分类 :包含六个任务,分为专业写作和创意写作两类。数据分布 :图1展示了任务的输入图像数量和期望输出长度的联合分布,大多数数据要求输出长度超过1000词,挑战VLMs的长文本生成能力。2. 长输出能力测试(LongWrite-V-Ruler) 测试方法 :选择8个示例,分别要求生成500、1000、2000和4000词的文章,共32个测试提示。测试结果 :图2显示了不同模型在不同输出长度要求下的平均输出长度。结果表明,所有模型的输出长度存在一个上限,约为1000词。3. SFT数据对输出长度的影响 实验方法 :使用Qwen2-VL-7B-Instruct在三个不同平均输出长度(0.8k、1.8k和2.8k)的视觉指令数据集上进行微调。实验结果 :图3显示,模型的最大输出长度随SFT数据的平均输出长度增加而增加。此外,SFT数据中长输出示例的比例对模型的输出长度至关重要。4. 模型训练与评估 模型选择 :基于Qwen2.5-VL-7B-Instruct和Qwen2.5-VL-72B-Instruct两个开源VLMs进行训练。训练过程 :监督微调(SFT) :使用LongWrite-V-22k数据集对模型进行微调,训练了LongWriter-V-7B和LongWriter-V-72B两个模型。迭代直接偏好优化(IterDPO) :使用人类修正的偏好对和AI反馈的偏好对进行DPO训练,最终训练了LongWriter-V-7B-DPO模型。评估指标 :使用输出长度分数(Sl)和质量分数(Sq)评估模型性能,其中Sl衡量输出长度与要求长度的接近程度,Sq由GPT-4o根据六个方面(相关性、准确性、连贯性、清晰度、广度和深度、阅读体验)打分。评估结果 :表1展示了不同模型在MMLongBench-Write上的性能。LongWriter-V模型在长输出任务上表现优异,尤其是在[3000, 4000]词的输出范围内。LongWriter-V-7B-DPO在长度和质量分数上均优于其他模型,表明DPO方法有效提升了长输出的质量。5. 人类评估 评估方法 :选择四个模型(LongWriter-V-7B、LongWriter-V-7B-DPO、LongWriter-V-72B和GPT-4o-2024-08-06)的响应,让两名人类标注者在120个响应中选择他们更偏好的模型响应。评估结果 :图6显示,LongWriter-V-7B-DPO和LongWriter-V-72B在与GPT-4o-2024-08-06的比较中获得了更多的人类偏好票数,表明这些模型在实际人类偏好方面具有优势。6. 消融研究 SFT数据源的影响 :分别移除LongWrite-V-22k数据集中的单图像、多图像和反向翻译数据,观察对SFT模型性能的影响。结果表明,这些数据源对模型性能都有贡献,尤其是多图像数据,移除后会导致整体分数大幅下降。迭代DPO策略的有效性 :移除由迭代策略扩展的偏好对,结果表明,使用完整数据的DPO模型在质量分数和PPT任务分数上优于仅使用原始偏好对的模型。AI反馈对性能的影响 :仅使用人类修正的偏好对进行DPO训练,结果表明,混合AI反馈的模型性能更好,说明AI生成的偏好对可以提供额外的训练信号,提升模型性能。关键结论 数据集和基准测试 :通过构建LongWriter-V22k数据集和MMLongBench-Write基准测试,论文验证了现有VLMs在长文本生成任务上的局限性,并展示了所提出方法的有效性。模型性能提升 :LongWriter-V模型在长输出任务上表现优异,尤其是在[3000, 4000]词的输出范围内。LongWriter-V-7B-DPO在长度和质量分数上均优于其他模型,表明DPO方法有效提升了长输出的质量。人类偏好 :人类评估结果表明,LongWriter-V-7B-DPO和LongWriter-V-72B在实际人类偏好方面具有优势。消融研究 :消融研究结果表明,多图像数据和迭代DPO策略对模型性能有显著贡献,AI反馈可以提供额外的训练信号,提升模型性能。未来工作 数据集扩展 :扩大数据集规模,增加多语言支持,以提高模型的鲁棒性和泛化能力。训练策略改进 :探索更高效的方法来获取和整合人类反馈,开发多任务学习方法,以进一步提升模型性能。模型架构创新 :开发专门针对长文本生成的VLM架构,改进注意力机制,以提高长文本生成的质量。应用领域拓展 :在特定领域(如医疗、法律、科技等)进行长文本生成任务的研究,探索模型在实际应用中的表现和改进方向。评估方法改进 :开发更全面的评估指标,设计动态评估方法,以更好地评估模型的适应性和灵活性。伦理和社会影响 :研究如何进一步提高VLMs生成信息的准确性,减少误导性或虚假信息的传播,确保训练数据的隐私保护。