首页
学习
活动
专区
圈层
工具
发布

美团LongCat发布大模型评测基准UNO-Bench

11月6日消息,美团LongCat今日宣布,团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。

据了解,多模态人工智能正从单一感知能力迈向视觉、音频与文本的统一融合,即全模态大模型(Omni-models)时代。

然而,相应的评测体系却相对滞后。现有的评测工具不仅稀缺、各自为战,且几乎完全以英文为中心,缺乏对中文场景的有效支持。此外,一些现存的数据集在设计上存在局限性,例如部分问题的解答路径并非严格依赖于多模态信息的融合,这为科学评估模型真实的跨模态能力带来了一定的复杂性。

针对以上痛点,官方表示,UNO-Bench通过一个统一的框架,能同时精准衡量模型的单模态与全模态理解能力,更首次验证了全模态大模型的“组合定律”,该定律在能力较弱的模型上呈现为短板效应,而在能力较强的模型上则涌现出协同增益,为行业提供了一种全新的、跨越模型规模的分析范式。

LongCat团队在UNO-Bench上对包括Qwen、Baichuan、MiniCPM以及Gemini系列在内的多款主流全模态大模型进行了全面评测。

LongCat团队的评测结果显示,以Gemini为代表的闭源模型在单模态及跨模态理解上仍远超主流开源阵营,其顶配版本虽在感知能力上已逼近人类专家,但在复杂的推理层面仍存在亟待突破的空间。

结果表明,推理能力是区分强弱模型的关键维度,空间推理与时序推理任务难度最高。

LongCat团队表示,后续将持续扩展UNO-Bench数据规模,引入STEM与Code等更高难度任务,进一步探索模态交互机制。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OOgTcFDxVbFMBgCGn-MFS1dw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券