本周大模型领域继续保持快速发展态势,各大厂商在医疗AI、视频生成、代码能力等多个领域取得显著进展。OpenRouter模型调用量排名发生重要变化,Claude系列模型表现抢眼,百度新模型ERNIE-5.0-0110在全球LMArena文本排行榜上排名第八,展现了中国模型的强劲实力。
测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
模型调用量 | Claude Opus 4.5 | Claude Sonnet 4.5 | MiMo-V2-Flash(free) |
公司市占率 | Anthropic | OpenAI | |
编程模型调用量 | Claude Opus 4.5 | Grok Code Fast 1 | Claude Sonnet 4.5 |
测评类型 | 领先公司 |
|---|---|
大语言模型 Text Arena | Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面 |
编程能力 LMArena | Anthropic、OpenAI、Google、智谱、MiniMax |
编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
代码工程任务能力 SWE-benchLite | 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统 |
图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、Black Forest Labs、Reve |
文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯、字节 |
文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节、ImagineArt |
GPQA | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
FrontierMath | OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI |
Humanity's Last Exam | Google、OpenAI、Anthropic |
GAIA | JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads |
关注我,第一时间掌握更多AI前沿资讯!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。