首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

视频数学问答:突破性基准测试,通过视频理解检验模型数学推理能力

对于想要理解人工智能如何进行数学推理的读者来说,这是一个激动人心的时刻。由阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)的Hanoona Rasheed、Abdelrahman Shaker、Anqi Tang、Muhammad Maaz,加州大学默塞德分校和谷歌研究院的Ming-Hsuan Yang,以及澳大利亚国立大学和瑞典林雪平大学的Salman Khan和Fahad Shahbaz Khan共同开发的一项创新研究于2025年6月发表在arXiv预印本平台(arXiv:2506.05349v1)。这项研究推出了一个名为"VideoMathQA"的基准测试,用于评估人工智能模型在视频环境中的数学推理能力。有兴趣深入了解的读者可以访问项目官网:https://mbzuai-oryx.github.io/VideoMathQA。

想象一下,你正在观看一段数学教学视频。教授一边讲解,一边在白板上写下公式,还不时地指向图表或动画演示。作为人类,我们能够轻松地将所看到的图像、听到的解释以及屏幕上出现的文字信息整合起来,理解整个数学概念。但对于人工智能来说,这是一项极其复杂的挑战——这正是VideoMathQA要解决的问题。

在真实世界的视频环境中进行数学推理,与在静态图像或纯文本中相比有着本质的不同。视频中的数学推理要求模型能够解读精细的视觉信息,准确阅读手写或数字文本,并整合口头解释,而这些信息常常以非线性方式分散在时间轴上。在这种多模态环境中,成功不仅仅依赖于感知能力,还取决于能否从丰富而嘈杂的内容流中选择性地识别和整合正确的上下文细节。

一、基准测试的独特设计

VideoMathQA基准测试覆盖了10个不同的数学领域,视频长度从10秒到超过1小时不等。它要求模型解释结构化的视觉内容,理解教学叙述,并在视觉、音频和文本模态之间建立概念联系。研究团队聘请了研究生级别的专家进行高质量标注,总计超过920人时的标注工作。

为了反映真实场景,问题围绕三个核心推理挑战设计:直接问题解决,答案基于呈现的问题;概念迁移,需要将学习到的方法应用于新问题;以及深度教学理解,涉及对长时间解释和部分解答的多步推理。每个问题都包含多步推理标注,使得对模型能力进行精细诊断成为可能。

想象一下"大海捞针"的难度——只不过这里的"针"是分散在视频、文本和音频三种模态中的关键信息。研究人员将这种挑战称为"多模态大海捞针"问题,这正是VideoMathQA基准测试的核心难点。

二、构建高质量的数据集

VideoMathQA包含420个精心策划的视频-问题对,涵盖从结构化问题演练到概念演示,再到完整的白板或数字讲座以及涉及图表推理的动画纪录片等多种教学内容。每个问题都包含多步推理步骤,整个数据集总共有2,945个专家标注的步骤。

每个问题都从四个维度进行特征化:数学概念、推理类型、视频时长和难度级别。在数学概念方面,基准测试覆盖了几何、算术与微积分、统计与概率、计数、图论、拼图、拓扑学和图表阅读等10个领域。推理类型分为"问题聚焦型"、"概念迁移型"和"深度理解型"三类。视频时长从10秒到1小时以上,分为短、中、长三组。难度级别则分为简单、中等和困难,其中困难问题占到了57%。

标注过程包括三个阶段:视频选择、问题-答案标注和逐步推理。这需要相当大的专家努力:平均花费30分钟找到合适的视频,40分钟制作高质量的问题-答案对,以及1小时撰写详细的逐步推理,每个样本总计约2到2.5小时。整个数据集的标注工作大约相当于115个人天的工作量。不同的标注者处理每个样本的各个阶段,以确保独立验证。

三、多模态理解的深度挑战

VideoMathQA基准测试的一个关键特点是它要求模型进行深度的跨模态推理。以"概念迁移"类型的问题为例,模型可能需要观看教师在视频中演示如何计算三角形的个数,然后将学到的方法应用到一个新的、相似但不完全相同的问题上。这就像是学生需要从课堂讲解中理解一个方法,然后运用到家庭作业中一样。

再如,"深度理解"类型的问题可能涉及跟踪一个长达20分钟的讲解视频,其中教授正在解释一个复杂的微积分问题,并且只完成了部分解答。模型需要理解讲解内容,识别问题要求,解读部分完成的解答,然后完成剩余的解答步骤。这模拟了学生需要跟上教授讲课节奏并填补空白的真实学习场景。

四、全面的模型评估

研究团队对30个专有和开源的多模态模型进行了全面评估,包括5个专有模型(Claude-3.7-sonnet、GPT-4o、GPT-o4-mini、Gemini 2.0 Flash和Gemini 1.5 Flash)以及25个开源模型,覆盖了5B、9B、40B和80B四个参数规模类别。

评估采用了四种策略:多项选择评估(MCQ)、多二元评估(MBin)、思维链(CoT)与直接回答的比较,以及逐步推理评估。这些方法相互补充,提供了对模型能力的全面视角。

结果显示,模型性能通常随着规模增大而提高,但架构和训练质量往往更具决定性——较新的、较小的模型经常优于较旧的、较大的模型。例如,InternVL-3-38B在CoT和直接回答中都超过了多个72B模型。这表明,更强的架构、改进的视觉理解和更好的推理能力使这些模型能够胜过较大的、以前的最先进模型。

有趣的是,专有模型和开源模型之间的差距正在缩小。经过优化的开源模型,如Qwen2.5-VL-72B和InternVL-3-78B,表现超过了几个专有竞争对手,包括Claude-3.7-Sonnet、Gemini-2.0-Flash和GPT-4o。

五、字幕和多模态推理的影响

研究发现,字幕一致地提高了模型性能,尤其是对于更大的开源和专有模型。然而,字幕的影响并不均匀:较小的模型(<5B和<9B)通常显示最小或不一致的增益。相比之下,具有推理能力的模型,如GPT-o4-mini,在使用字幕时性能从42.1%提高到44.8%,而Qwen2.5-VL则从24.5%提高到28.6%。

这些改进反映了模型将细粒度音频线索与视觉帧集成的能力——这正是"多模态大海捞针"挑战的核心,其中关键信息分布在各种模态中。具有更强推理能力的模型更能够将这些分散的线索整合为连贯的解决方案,而其他模型可能会忽略关键的语言线索。

六、视频长度和帧采样的影响

研究团队评估了模型在短(<30秒)、中(30秒-2分钟)和长(2分钟-1小时)三种视频类别上的表现,观察到两个明显的趋势。

首先,虽然大多数模型在短视频上表现相对较好,但在中等长度的视频上准确率通常会提高,在更长时间的视频上则会下降。这些趋势与基准测试所针对的三种推理挑战相一致。短视频通常对应于"问题聚焦"型问题,成功取决于一般数学能力和提取关键视觉或语言线索的能力。中等长度的视频通常涉及"概念迁移"问题,有利于能够有效理解指示的模型。相比之下,长视频对应于"深度理解"问题,这些问题要求跟随扩展的、通常是非线性的教学序列来解释上下文。

其次,研究团队通过评估Qwen2.5-VL在16、64、256和768帧设置下的表现,研究了帧采样如何影响性能。结果发现,增加帧数提供了持续的改进,特别是对于较长的视频:短视频提高5点,长视频提高8点,这表明能够处理扩展帧序列并保持长期时间连贯性的模型更适合基于视频的数学推理。

七、不同数学概念的表现差异

研究团队分析了模型在基准测试涵盖的十个数学类别中的表现,发现了明显的变化。当前模型在涉及算术和微积分的问题上表现较好,平均准确率约为32%,GPT-o4-mini在CoT评估中取得了最佳表现63.5%。大多数模型在几何推理和拼图等类别上表现中等,平均表现在24%到30%之间。相比之下,图表阅读、拓扑学、图论以及统计与概率对所有模型来说都更具挑战性,这些类别的平均准确率通常在16%到21%之间。

八、推理过程中的常见失败模式

VideoMathQA的一个重要贡献是对模型错误的详细分析。研究人员将模型错误分为七类:理解问题错误、未能检索相关信息、视觉解读错误、概念应用错误、策略选择错误、记忆/上下文错误和计算错误。

在这些错误中,最常见的是理解问题错误,模型误解了问题要求或忽略了视频中的关键多模态线索。这反映了基准测试的核心挑战——即使缺少一个小的语言或视觉细节也会完全破坏推理过程。专有模型如GPT-o4-mini和Gemini-2.0-Flash在概念应用和策略选择方面的错误较少(分别为12%和6%),表明它们有更强的领域基础和更好的问题解决执行能力。相比之下,开源模型如InternVL-3展示了更广泛分布的错误,概念应用和策略选择错误共占总错误的23%,同时在计算方面也有明显的错误。同时,GPT-o4-mini在视觉解读错误方面的比例较高,表明它在处理精细的视觉线索(如图表和图表)方面存在困难。

九、研究结论与未来方向

VideoMathQA展示了当前多模态模型在处理视频中的数学推理时面临的显著挑战。尽管专有模型如GPT-o4-mini在某些数学领域表现出色,但即使是最先进的模型也难以在更复杂的推理任务上取得高准确率,特别是在需要长期关注和跨模态整合的任务上。

研究的关键发现包括: - 成功不仅取决于视觉感知,还取决于对分散在时间、模态和上下文中的细微线索的持续关注 - 模型往往在关键帧、符号或口头细节被遗漏时失败,揭示了整合长期多模态信息的能力有限 - 虽然性能通常随着规模增加而提高,但架构和训练质量往往更具决定性 - 专有和开源系统之间的差距正在缩小,最新的开源模型现在可以匹配或超过专有模型

通过建立这个基准测试,研究团队为未来的模型发展提供了系统评估框架,强调了现有方法的局限性,并为在时间扩展和模态丰富的数学问题环境中进行推理(而不仅仅是感知)的模型设定了标准。

这项研究不仅推动了AI在教育领域的应用,还为开发能够在复杂、多模态环境中进行深度推理的更强大系统铺平了道路,这将对从在线教育到科学研究的各种领域产生深远影响。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oz0z9KJcW7IueigM5wLAhLsQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券