本周大模型领域持续涌现创新成果,数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5,在国际数学奥林匹克竞赛中取得金牌线成绩,而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高,北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。
测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
模型调用量 | Grok Code Fast 1 | Claude Sonnet 4.5 | Gemini 2.5 Flash |
公司市占率 | xAI | Anthropic | |
编程模型调用量 | Grok Code Fast 1 | GPT-5.2 | Claude Sonnet 4.5 |
测评类型 | 领先公司 |
|---|---|
大语言模型 Text Arena | Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱 |
编程能力 LMArena | Anthropic、OpenAI、Google |
编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
代码工程任务能力 SWE-benchLite | 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统 |
图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、Reve |
文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯、字节 |
图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、Black Forest Labs、字节、Pruna AI |
文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节 |
GPQA | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
FrontierMath | OpenAI、Google、月之暗面、Anthropic、xAI |
Humanity's Last Exam | Google、OpenAI、Anthropic |
GAIA | Microsoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等 |
关注我,第一时间掌握更多AI前沿资讯!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。