用数据说话：谷歌 Bard 的多模态能力到底如何?

OpenMMLab 官方账号

发布于 2023-08-21 19:13:56

3150

发布于 2023-08-21 19:13:56

文章被收录于专栏：OpenMMLab

2023 年 3 月，Google 发布了对话大语言模型 Bard，一经推出便受到了广泛关注。7 月，谷歌发布了一次重大更新—— Bard 目前能够处理图像输入，解锁了多模态信息理解能力。那么 Bard 对图像理解的能力究竟如何，我们将用 MMBench 为大家揭晓答案。

https://opencompass.org.cn/mmbench

（欢迎使用，文末点击阅读原文可直达）

测试设置

本次测试在 MMBench 的测试集上进行，测试集全集共 1798 个问题。由于 Bard 拒绝回答关于以人为主体的图像的问题，在与其他模型比较时，我们去除了四个与人关系密切的能力维度（Image Emotion, Identity Reasoning, Social Relation，Action Recognition），并移除了其余能力维度中 Bard 拒绝回答的问题。清洗后的测试集子集包含 16 个能力维度，共 1226 个问题。

全维度对比

向上滑动阅览

在横向对比 Bard 的性能时，我们选择了两个在 MMBench 上表现优异的开源多模态大模型，Otter 和 Shikra 作为 Bard 的对手，各个任务上的性能对比如图所示。总体来说，Bard 在 MMBench 上取得了十分优秀的性能，所有题目准确率达到了 51%。在各个任务中，Bard 擅长常识推理类任务，比如自然关系推断（Nature Relation）任务准确率达 62.3%，物理关系推断（Physical Relation）任务准确率达 45.2%，远超其他模型。但同时，我们也发现 Bard 在处理图像空间关系相关的任务上表现不佳，如空间关系（Spatial Relationship）任务和物体定位（Object Localization）任务。这也许说明 Bard 没有像 Shikra 等模型一样在训练时引入视觉定位任务来增强图像感知能力。

问答实例

为了更直观地了解 Bard 的多模态理解能力，我们选取了一些 MMBench 中的对话实例。

上图中，黄色为提出的问题，蓝色为 Bard 的回复，橙色为 LLaVA 的回复。可以看到，在左侧的例子中，Bard 首先对图片内容进行了梳理、提取了问题相关的信息、并给出了有序整理后的回答。而在右侧例子中，Bard 准确地提取了卡通形象的概念，并根据问题给出了针对性回答，并没有受图片卡通化内容的影响。这两个例子展现了 Bard 在处理复杂情形和常识推理问题上的优势。

而 Bard 也有明显的短处。如上图中对图片风格和图片质量的辨析任务，这两个任务的共同点是图片内容（如右图中苹果）和任务问题（图片质量）并不相关。而 Bard 在回答中显示出了对图片内容提取的强倾向性，没能给出问题的正确答案。而在图片风格和图片质量这两类任务上，Bard 分别取得了 50% 和 7% 的准确率，相较于其他模型略显逊色。

值得一提的是，在上述对话实例中，Bard 都给出了条理清晰的答案，并在合适的地方运用如表格等来进一步说明。我们发现，在所有问答对话中，Bard 遵循着严格的回答格式：首先给出预测选项——提供详尽的分析——并对非正确选项进行解释。从这个角度来说，Bard 作为对话机器人有很强的指令跟随能力和十分优秀的对话风格。

总结

本文对 Bard 多模态模型的性能进行了深入分析，并在 MMBench 客观评测集上与其他开源多模态大模型进行了比较。总体来说，Bard 在 MMBench 上表现优异，具有清晰的答案结构和出色的对话风格，尤其在常识推理类任务中表现十分突出，但在处理图像空间关系相关的任务和图片风格、质量辨析任务上表现欠佳。

前段时间我们已经开源了 MMBench，目前已经有多个社区模型在 MMBench 进行了评测，我们也欢迎大家积极地将自己的模型在 MMBench 上进行测试。

官网:

https://opencompass.org.cn/mmbench

Paper:

https://arxiv.org/pdf/2307.06281.pdf

代码库:

https://github.com/InternLM/opencompass

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-08-17，如有侵权请联系 cloudcommunity@tencent.com 删除

开源