编辑:LRST
想象一下,你正在观看吴恩达老师的机器学习课程,视频讲解清晰、动画直观,你很快掌握了核心概念,并能在考试中灵活应用,人类对这个过程再熟悉不过。
那么,如果AI也能这样学习呢?
图1 Video-MMMU提出知识获取的3大认知阶段
这正是Video-MMMU试图回答的核心问题:AI能否通过观看视频获取并应用知识?
对于多模态大模型(LMMs)来说,视频不仅是它们感知世界的窗口,更是获取知识的重要途径。南洋理工大学S-Lab团队推出Video-MMMU数据集是首个评测LMMs从多学科专业视频中提取、理解并运用知识能力的创新基准。
通过Video-MMMU,我们不再满足于模型「看懂」视频,而是探索它能否真正「学会」视频中的新知识,并运用这些知识解决实际问题。
论文地址:https://arxiv.org/abs/2501.13826
开源代码:https://github.com/EvolvingLMMs-Lab/VideoMMMU
项目主页:https://videommmu.github.io/
数据集:https://huggingface.co/datasets/lmms-lab/VideoMMMU
三大认知阶段:从感知到应用
教育学认为,学习是一个渐进的认知过程 [1],而Video-MMMU正是围绕这个过程设计的,将学习新知识拆解为三个认知阶段:感知(Perception)、理解(Comprehension)和运用(Adaptation),系统评估模型在知识获取不同层次的能力。
感知(Perception)——信息获取的起点,模型需要从视频中提取关键信息,这是获取知识的基础。
理解(Comprehension)——从感知到掌握,模型不仅需要「看清」,还要理解知识的深层次含义。
运用(Adaptation)——真正的学以致用,模型需要将从视频中学到的知识运用到全新的场景中。这是测试学习能力的最终环节。
知识增益(∆knowledge):衡量模型的能力提升
Video-MMMU 的另一大亮点在于设计了「知识增益」(∆knowledge)指标。这一创新不仅关注模型的「绝对能力」,更评估其在观看视频前后的在应用阶段的表现提升。
图2 模型通过观看视频,将原本无法解决的问题做对。「解题」的能力不是唯一的检验标准,能获取知识,并把原本做错的问题做对,也是一种重要的能力。
与传统评测不同,Video-MMMU更关注模型是否能通过观看视频解决原本无法解答的问题。从Video-MMMU的角度,智能不仅仅是「解题」的能力,更是快速学习和应用新技能的能力。
对于多模态大模型来说,视频就是它们的课堂。通过视频「上课」,模型可以获取新知识,并灵活应用于实际生活中的未知挑战,不仅是对「智能」概念的重新思考,更是迈向通用智能(AGI)的一次有趣探索。
Video-MMMU 的发布,为评估和改进LMMs的知识获取能力提供了全新视角。如果人类的课堂是学习的起点,那么 Video-MMMU 就是LMMs走向课堂的一扇大门。
数据集的独特性
Video-MMMU的独特之处在于首次将视频作为知识传播的核心渠道,从传统的视频场景理解转向视频内容的知识学习。数据集专注于高质量教育视频,平均时长506.2秒,覆盖多个学科领域。其问题平均长度达75.7字,远超其他基准,体现出高度专业性和挑战性。
数据集设计
Video-MMMU覆盖6大专业领域(艺术、商业、医学、科学、人文、工程)中的30个学科。数据集包含精心筛选的300个大学水平的教育视频和900个高质量的问答对。
问题设计
实验结果分析
作者使用 OpenAI Whisper 生成音频转录文本,以测试其对模型表现的影响。
结果显示:
Video-MMMU 的核心创新之一是引入「知识增益」指标(∆knowledge)用于评估模型通过观看视频学习新知识的能力。与传统评测不同,该指标关注模型是否能通过视频学习,解决原本不会的问题,而不仅仅是静态的解题能力。(∆knowledge)定义为:
人类在观看视频后,知识增益达33.1%,而表现最好的模型(GPT-4o)仅为15.6%,多数模型低于10%。更令人意外的是,一些模型在观看视频后反而表现下降,表明它们在知识学习和应用方面仍远不及人类。
仅凭知识增益(∆knowledge)并不能全面衡量模型的真实学习能力。因此,作者进一步引入两个关键指标:
实验发现,大多数模型取得较为不错的错误转正确率,显示出一定的学习能力。但是,大多数模型的正确转错误率远高于人类,表明它们在吸收视频知识时仍存在明显不足。
人类在这两个指标上的表现更加平衡:
结论:模型的瓶颈
实验结果揭示了当前多模态大模型(LMMs)在视频学习中的两大挑战:
如何提升LMMs的学习效率和稳定性,将是提升视频知识获取能力的关键。
作者对Claude-3.5-Sonnet在运用阶段的100个错误进行了分类,分析模型做错的根本原因。
作者详细分析了模型方法运用错误的例子:
总结
Video-MMMU首次系统性评测了LMMs从视频中学习、理解和应用知识的能力,揭示了当前多模态大模型在学习效率和知识迁移上的显著不足。提升模型从视频中获取知识的能力,将是迈向AGI的重要一步。
参考资料:
[1] Mary Forehand. Bloom’s taxonomy. Emerging perspectives on learning, teaching, and technology, 41(4):47–56, 2010