本周大模型领域呈现显著变化,Google的Gemini 3 Flash模型系列表现突出,不仅在多个榜单新晋前列,还发布了新的高速低成本模型。OpenAI的GPT系列在编程和图像能力方面继续保持强势地位。xAI市场份额持续下降,而OpenAI份额则稳步上升。整体来看,新模型发布和性能优化仍是本周主要趋势。
测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
模型调用量 | Grok Code Fast 1 | Gemini 2.5 Flash | Claude Sonnet 4.5 |
编程模型调用量 | Grok Code Fast 1 | GPT-5.2 | Claude Sonnet 4.5 |
公司市占率 | OpenAI | xAI |
测评类型 | 领先公司 |
|---|---|
大语言模型 Text Arena | Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱 |
编程能力 LMArena | Anthropic、OpenAI、Google |
编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
代码工程任务能力 SWE-benchLite | (基于 Claude、Gemini、GPT、Qwen、DeepSeek 开发的开源系统排名靠前) |
图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、Reve |
文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯、字节 |
图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、Black Forest Labs、字节、Pruna AI |
文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节 |
GPQA 榜单 | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
FrontierMath 榜单 | OpenAI、Google、月之暗面、Anthropic、xAI |
Humanity's Last Exam 榜单 | Google、OpenAI、Anthropic |
📌 关注我,第一时间掌握更多AI前沿资讯!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。