首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型榜单周报(2025/12/20)

大模型榜单周报(2025/12/20)

原创
作者头像
KAI智
发布2025-12-20 19:54:16
发布2025-12-20 19:54:16
1380
举报
文章被收录于专栏:AI早知道AI早知道

1. 本周概览

本周大模型领域呈现显著变化,Google的Gemini 3 Flash模型系列表现突出,不仅在多个榜单新晋前列,还发布了新的高速低成本模型。OpenAI的GPT系列在编程和图像能力方面继续保持强势地位。xAI市场份额持续下降,而OpenAI份额则稳步上升。整体来看,新模型发布和性能优化仍是本周主要趋势。

2. 重点关注事件

  • OpenAI推出了其新一代图像模型 GPT Image 1.5,这一代模型具备更强的指令遵循,更精准的图像编辑,也能较好的保留细节,生成速度则来到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 两大权威榜单。
  • Google本周发布了一系列新产品,包括高速、低成本模型 Gemini 3 Flash(该模型基于上个月发布的 Gemini 3,并被设为 Gemini 应用和搜索 AI 模式中的默认模型,目前在智能/成本上,成为了全球性价比最高的模型)和 T5Gemma 模型(首个多模态和长上下文的编码器-解码器模型,建立在 Gemma 3 的强大功能之上,使用了「适应(adaptation)」技术将已经完成预训练的仅解码器模型转换为编码器-解码器架构),进一步巩固了其在AI领域的领先地位。
  • 阿里通义万相 2.6 上线,成为国内首个具备角色扮演功能的视频模型。Wan 2.6 在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移。
  • 字节Seed本周也发布多项产品,推出了豆包视频生成模型Seedance 1.5 Pro(该模型采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架,它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信)和通用 Agent 模型 Seed1.8(具备强大的多模态能力,支持图文输入,能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务,满足日益多元的技术需求)。

3. 榜单变化

模型调用量排名变化
  • Gemini 2.5 Flash 排名上升了 1 名到第 2,仅次于 Grok Code Fast 1
  • GPT-OSS-120B 排名上升了 1 名到第 4
  • DeepSeek V3.2 重回榜单前 10,位列第 8 名
公司市占率变化
  • Google 保持第 1 位置
  • OpenAI 在发布 GPT-5.2 之后市占率超过 xAI 来到第 2 位;Anthropic、DeepSeek 紧跟 xAI 之后
  • xAI 份额持续下降了(17.3% → 14.8%),三周内累计下降 22.9%
  • OpenAI 份额上升了 2.9%(14.8% → 17.7%)
编程调用量排名变化
  • Grok Code Fast 1 保持第 1 位置
  • GPT-5.2 跃升至第 2 位
  • Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
  • MiniMax M2 排名保持第 5
  • Devstral 2 2512 排名由第 9 上升了 2 名
大语言模型(Text Arena)排名变化
  • gemini-3-flash 新晋榜单第 3 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 7
  • gpt-5.2-high 和 gpt-5.2 分别排名 15、17位
编程能力榜单(WebDev Arena)排名变化
  • gemini-3-flash 新晋榜单第 5 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 12
编程能力榜单(LiveCodeBench GSO Leaderboard)排名变化
  • GPT-5.2 新晋榜单第 1 位
  • GPT-5.1 排名第 6 位
图像编辑能力榜单(Image Edit Arena)排名变化
  • chatgpt-image-latest (20251216)新晋榜单第 1 名
  • gpt-image-1.5 新晋榜单第 3 位,超过 gemini-3-pro-image-preview-2k (nano-banana-pro)
  • reve-v1.1 新晋榜单第 8 名
文生图榜单(Text-to-Image Arena)排名变化
  • gpt-image-1.5 超过 nano banana pro,新晋榜单首位
  • flux-2-max 排名仅次于二者,新晋榜单第 3 名
图像编辑能力榜单 (Artificial Analysis Image Editing Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
文生图榜单(Artificial Analysis Text to Image Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
理科能力榜单(LLM Stats GPQA)排名变化
  • Gemini 3 Flash 新晋榜单第 4 名,得分 90.4%
前沿数学能力榜单(EPOCH AI FrontierMath)排名变化
  • GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晋榜单首位
  • Gemini 3 Flash 以 35.6% 的得分排名榜单第 5 位
多模态基准测试榜单(HLE)排名变化
  • GPT-5.2 新晋榜单第 3 名
GAIA 榜单排名变化
  • Microsoft AI Asia -Ads 发布的 HALO V1217-1 新晋榜首

4. OpenRouter排行榜

测评类型

第一名

第二名

第三名

模型调用量

Grok Code Fast 1

Gemini 2.5 Flash

Claude Sonnet 4.5

编程模型调用量

Grok Code Fast 1

GPT-5.2

Claude Sonnet 4.5

公司市占率

Google

OpenAI

xAI

各公司按不同能力领域排名汇总

测评类型

领先公司

大语言模型 Text Arena

Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱

编程能力 LMArena

Anthropic、OpenAI、Google

编程能力 LiveCodeBench

OpenAI、Anthropic、Google

代码工程任务能力 SWE-benchLite

(基于 Claude、Gemini、GPT、Qwen、DeepSeek 开发的开源系统排名靠前)

图像编辑和生成能力 Image Edit Arena

OpenAI、Google、字节、Reve

文生图能力 Text-to-Image Arena

OpenAI、Google、Black Forest Labs、腾讯、字节

图像编辑和生成能力 Image Editing Leaderboard

OpenAI、Google、Black Forest Labs、字节、Pruna AI

文生图能力 Text to Image Leaderboard

OpenAI、Google、Black Forest Labs、字节

GPQA 榜单

OpenAI、Google、xAI、Anthropic、阿里巴巴

FrontierMath 榜单

OpenAI、Google、月之暗面、Anthropic、xAI

Humanity's Last Exam 榜单

Google、OpenAI、Anthropic


📌 关注我,第一时间掌握更多AI前沿资讯!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 本周概览
  • 2. 重点关注事件
  • 3. 榜单变化
    • 模型调用量排名变化
    • 公司市占率变化
    • 编程调用量排名变化
    • 大语言模型(Text Arena)排名变化
    • 编程能力榜单(WebDev Arena)排名变化
    • 编程能力榜单(LiveCodeBench GSO Leaderboard)排名变化
    • 图像编辑能力榜单(Image Edit Arena)排名变化
    • 文生图榜单(Text-to-Image Arena)排名变化
    • 图像编辑能力榜单 (Artificial Analysis Image Editing Leaderboard)排名变化
    • 文生图榜单(Artificial Analysis Text to Image Leaderboard)排名变化
    • 理科能力榜单(LLM Stats GPQA)排名变化
    • 前沿数学能力榜单(EPOCH AI FrontierMath)排名变化
    • 多模态基准测试榜单(HLE)排名变化
    • GAIA 榜单排名变化
  • 4. OpenRouter排行榜
    • 各公司按不同能力领域排名汇总
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档