首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GPT-4V被超越?SEED-Bench多模态大模型测评基准更新

大数据文摘受权转载自将门创投

大语言模型(LLM)的蓬勃发展离不开健全的评测体系,而对于多模态大语言模型(MLLM)而言,一直缺乏类似MMLU、ARC等全面且客观的评测基准。腾讯AI Lab联手腾讯ARC Lab港中深推出了SEED-Bench系列测评基准,有效弥补了这一缺陷,目前已成为测评MLLM的主流基准之一。

SEED-Bench评测基准在2023年7月首次发布,它包含了19K道经过人工标注正确答案的选择题,涵盖了图像和视频的12个评估维度;并在11月发布了v2版本,扩充至24K选择题和27个维度! 值得一提的是,Hugging Face CEO Clément Delangue也对在线榜单进行了点赞。

技术报告

SEED-Bench-1:

https://arxiv.org/abs/2307.16125

SEED-Bench-2:

https://arxiv.org/abs/2311.17092

测评数据

SEED-Bench-1:

https://huggingface.co/datasets/AILab-CVC/SEED-Bench

SEED-Bench-2:

https://huggingface.co/datasets/AILab-CVC/SEED-Bench-2

项目主页:

https://github.com/AILab-CVC/SEED-Bench

在线排行榜:

https://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboard

随着MLLM的迅速发展,短短四个月内,SEED-Bench-1评测榜单的排名(见下图)已经全部焕然一新。最近,备受瞩目的GPT-4V模型也推出,引发了社区对其在SEED-Bench上表现的关注。然而,出人意料的是,在单张图像的评估维度上,GPT-4V竟然并未位居榜首。

SEED-Bench-1在线排行榜(排序依据单张图像的评分结果)

一、GPT-4V被超越?

现在下这个结论还为时过早。我们可以看到,GPT-4V在SEED-Bench-1视频(即图像序列)的评估维度上显著超越第二名(见下图),可以体现出GPT-4V较强的多模态推理能力。

SEED-Bench-1在线排行榜(排序依据视频的评分结果)

事实上,不止于多模态理解(输入图文,输出文),近期的研究(如CM3leon、Next-GPT、Emu、SEED-LLaMA等)进一步赋予了MLLM生成图像(输入图文,输出图乃至图文)的能力,使其能够表现得像GPT-4V和DALL-E 3的组合一样实现任意形式的输入和输出。

然而,目前的多模态测评基准(如SEED-Bench-1、MMBench、MME等)仅评估MLLM的理解能力,滞后于MLLM的飞速发展。SEED-Bench-2,这一全新的评测基准在SEED-Bench首度发布四个月后,以其全新的评估视角,重磅登场,首次对MLLM的层级化能力进行评估。

二、SEED-Bench-2

如下图所示,SEED-Bench-2由三个层级构成(L1-3),每个层级都对模型的不同能力进行了深度评估:

,评估模型对固定形式的图像(如单图、多图或视频)和文本的理解能力;

,评估模型对图文穿插这一更为灵活的输入形式的理解能力;

,更进一步,评估模型不仅输出文本,还包括生成图像的能力。

在这一金字塔评估层级中,高层级会覆盖低层级的评估维度,即L3级模型应同时具备L1-2的能力。

MLLM功能分层图

SEED-Bench-2 精心设计了24K个选择题,覆盖三个层级的共27个维度,包括文本和图像生成的评估。其评估维度如下图所示。我们将任务分为Part 1,Part 2和Part 3,其中Part 1构成

评估层级,Part 2和Part 1构成

评估层级,Part 3,Part 2和Part 1构成

评估层级。

SEED-Bench-2任务分类图

下图分别展示了SEED-Bench-2中不同维度的题目示例:

L1单张图片以及文本理解题目示例图

L1多张图片\视频以及文本理解题目示例图

L2-3图文交叉数据、图像生成和图像文本生成题目示例图

那么GPT-4V在全新的SEED-Bench-2表现如何?

如下图所示,GPT-4V在

层级和

层级上占据榜首,展现了强大的性能。但是它的能力尚未达到

层级(在不结合DALL-E 3的情况下,不支持图像输出)。

SEED-Bench-2 Learderboard

SEED-Bench-2目前已测评了23个开源MLLM的性能,它们在各个层级和维度的具体表现如下图。欢迎大家持续向在线leaderboard贡献自己的结果!

模型评测结果图

能力热力图

SEED-Bench-2的层级化评测结果展示了如下的发现

层级上,即理解固定形式的图像和文本,现有的MLLMs尚未达到天花板水平。特别是在理解图表和视觉数学等专项能力方面,MLLMs的表现较差。

层级上,即理解自由形式的图像-文本输入,MLLMs的表现普遍不如在L1层级上的表现。这表明,对于MLLMs来说,理解图文穿插这一更为灵活的多模态输入更具挑战性。

只有少数MLLMs能够达到

层级,这需要模型不仅能输出文本,还具备输出图像的能力。目前,统一文本和图像生成的MLLM的研究仍然处于起步阶段。

三、Q&A

Q:SEED-Bench-2评测方式

A:针对文本输出的测评,我们参考相关工作:GPT-3,InstructBLIP和TruthfulQA,通过计算模型对于各个选项的ppl,来获取模型选择题的答案。

针对图片输出的测评,我们计算模型生成图像和groundtruth图像的CLIP相似分数,来获取模型选择题的答案。(注:我们目前侧重关注语义的正确性)

此外我们发现社区的模型在测评SEED-Bench时,使用了ppl以外的测评方式(如直接generate),我们在leaderboard上新增了不同测评方式(Evaluation Method)的说明和赛道。

Q:SEED-Bench-1和SEED-Bench-2的关系

A:SEED-Bench-1的测评维度构成了SEED-Bench-2

层级的部分维度。

SEED-Bench-2的测评数据和代码已经开源,欢迎社区更新自己的模型在SEED-Bench-2上的结果。

Illustration From IconScout By Pablo Stanle

租!GPU云资源

新上线一批A100/A800

运营商机房,服务有保障

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O13vJlxF1qhxEcoyCTpNbuaA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券