首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

报告:Gemini-Pro 在多模态领域的表现和 GPT-4V 不相上下

据站长之家 12 月 22 日报道,近期的 Gemini-Pro 评测报告显示其在多模态领域取得了显著的进展,与 GPT-4V 不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准 MME 上的综合表现中,Gemini-Pro 以 1933.4 的高分超越了 GPT-4V,展现出在感知和认知方面的全面优势。

其次,在 37 个视觉理解任务中,Gemini-Pro 在文本翻译、颜色/地标/人物识别、OCR 等任务中表现突出,而 GPT-4V 在名人识别任务上得分为 0。在高级认知、挑战性视觉任务和各种专家能力领域,Gemini-Pro 展现了强大的视觉感知和理解能力,但在位置识别任务上表现都不佳。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2BgAeskmIMyIGaCJjGgWypg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券