前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用数据说话:谷歌 Bard 的多模态能力到底如何?

用数据说话:谷歌 Bard 的多模态能力到底如何?

作者头像
OpenMMLab 官方账号
发布2023-08-21 19:13:56
2990
发布2023-08-21 19:13:56
举报
文章被收录于专栏:OpenMMLabOpenMMLab

2023 年 3 月,Google 发布了对话大语言模型 Bard,一经推出便受到了广泛关注。7 月,谷歌发布了一次重大更新—— Bard 目前能够处理图像输入,解锁了多模态信息理解能力。那么 Bard 对图像理解的能力究竟如何,我们将用 MMBench 为大家揭晓答案。

https://opencompass.org.cn/mmbench

(欢迎使用,文末点击阅读原文可直达)

测试设置

本次测试在 MMBench 的测试集上进行,测试集全集共 1798 个问题。由于 Bard 拒绝回答关于以人为主体的图像的问题,在与其他模型比较时,我们去除了四个与人关系密切的能力维度(Image Emotion, Identity Reasoning, Social Relation,Action Recognition),并移除了其余能力维度中 Bard 拒绝回答的问题。清洗后的测试集子集包含 16 个能力维度,共 1226 个问题。

全维度对比

向上滑动阅览

在横向对比 Bard 的性能时,我们选择了两个在 MMBench 上表现优异的开源多模态大模型,Otter 和 Shikra 作为 Bard 的对手,各个任务上的性能对比如图所示。总体来说,Bard 在 MMBench 上取得了十分优秀的性能,所有题目准确率达到了 51%。在各个任务中,Bard 擅长常识推理类任务,比如自然关系推断(Nature Relation)任务准确率达 62.3%,物理关系推断(Physical Relation)任务准确率达 45.2%,远超其他模型。但同时,我们也发现 Bard 在处理图像空间关系相关的任务上表现不佳,如空间关系(Spatial Relationship)任务和物体定位(Object Localization)任务。这也许说明 Bard 没有像 Shikra 等模型一样在训练时引入视觉定位任务来增强图像感知能力。

问答实例

为了更直观地了解 Bard 的多模态理解能力,我们选取了一些 MMBench 中的对话实例。

上图中,黄色为提出的问题,蓝色为 Bard 的回复,橙色为 LLaVA 的回复。可以看到,在左侧的例子中,Bard 首先对图片内容进行了梳理、提取了问题相关的信息、并给出了有序整理后的回答。而在右侧例子中,Bard 准确地提取了卡通形象的概念,并根据问题给出了针对性回答,并没有受图片卡通化内容的影响。这两个例子展现了 Bard 在处理复杂情形和常识推理问题上的优势。

而 Bard 也有明显的短处。如上图中对图片风格和图片质量的辨析任务,这两个任务的共同点是图片内容(如右图中苹果)和任务问题(图片质量)并不相关。而 Bard 在回答中显示出了对图片内容提取的强倾向性,没能给出问题的正确答案。而在图片风格和图片质量这两类任务上,Bard 分别取得了 50% 和 7% 的准确率,相较于其他模型略显逊色。

值得一提的是,在上述对话实例中,Bard 都给出了条理清晰的答案,并在合适的地方运用如表格等来进一步说明。我们发现,在所有问答对话中,Bard 遵循着严格的回答格式:首先给出预测选项——提供详尽的分析——并对非正确选项进行解释。从这个角度来说,Bard 作为对话机器人有很强的指令跟随能力和十分优秀的对话风格。

总结

本文对 Bard 多模态模型的性能进行了深入分析,并在 MMBench 客观评测集上与其他开源多模态大模型进行了比较。总体来说,Bard 在 MMBench 上表现优异,具有清晰的答案结构和出色的对话风格,尤其在常识推理类任务中表现十分突出,但在处理图像空间关系相关的任务和图片风格、质量辨析任务上表现欠佳。

前段时间我们已经开源了 MMBench,目前已经有多个社区模型在 MMBench 进行了评测,我们也欢迎大家积极地将自己的模型在 MMBench 上进行测试。

官网:

https://opencompass.org.cn/mmbench

Paper:

https://arxiv.org/pdf/2307.06281.pdf

代码库:

https://github.com/InternLM/opencompass

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档