近日,Chatbot Arena 传来重磅消息:谷歌 DeepMind 最新推出的 Gemini(Exp 1114 版本)经过一周多的社区测试,超过 6000 票,以总分跃升 40 多分的优异成绩与 4o-latest 并列第一,超越了 o1-preview 版本。此外,Gemini-Exp-1114 还荣登视觉排行榜榜首。
Gemini-Exp-1114 在技术和创意领域均表现出色:
总排名:从第 3 名跃升至第 1 名
数学:从第 3 名跃升至第 1 名
难题:从第 4 名跃升至第 1 名
创意写作:从第 2 名跃升至第 1 名
视觉:从第 2 名跃升至第 1 名
编码:从第 5 名上升至第 3 名
风格控制总分:保持第 4 名
这一里程碑式的成就引发了社区的广泛关注和热议。Logan Kilpatrick 宣布 gemini-exp-1114 已在 Google AI Studio 上线,供用户体验。许多用户表达了祝贺和期待,同时也提出了一些问题,例如测试是否仍然限制在 1000 个 token,以及如何处理长文本输出超过限制的情况等。 有用户指出,OpenAI 通常会在竞争对手发布重大更新时推出自己的更新或新产品,但这次谷歌的突破非常显著。还有用户希望 lmsys.org 能添加更多 Qwen 2.5 模型进行测试和比较。
一些用户分析,风格控制排名未变,可能表明团队主要尝试了新的后训练方法,而预训练模型未做改动。 也有人猜测,这可能是 Gemini 2 的前奏。
Gemini-Exp-1114 的亮眼表现标志着谷歌在大型语言模型领域取得了重大进展,其强大的计算能力投资终于开始得到回报。未来 Gemini 的发展令人期待。
领取专属 10元无门槛券
私享最新 技术干货