首页
学习
活动
专区
圈层
工具
发布

GLM-5:当开源模型逼近闭源天花板,AI竞赛的底牌正在翻转

智谱正式发布了 GLM-5,一个瞄准复杂系统工程和长程智能体任务的开源大模型。参数规模从 GLM-4.5 的 3550 亿(320 亿激活)跃升至 7440 亿(400 亿激活),预训练数据从 23 万亿 token 增加到 28.5 万亿。模型权重以 MIT 协议开源,这在这个量级的模型中相当罕见。

值得玩味的是训练精度的选择。GLM-5 用的是 FP16 而非 DeepSeek 采用的 FP8。FP16 意味着每个参数占用的存储翻倍,训练成本更高,但数值精度也更高,训练过程更稳定。DeepSeek 已经证明 FP8 训练可以达到接近的效果,而且在 H100 上能获得 1.6 倍的吞吐提升和一半的显存占用。智谱选择了一条更“笨”但更扎实的路。有社区传言说这与国产算力硬件的适配有关,如果属实,这反而说明了一个问题:硬件约束有时候会倒逼出不同的工程路径,而不同的路径未必意味着劣势。

从基准测试看,GLM-5 的表现已经非常接近闭源顶级模型。SWE-bench Verified 得分 77.8,Opus 4.5 是 80.9;BrowseComp 上 GLM-5 拿到 75.9,反超了所有对手;在多语言 SWE-bench 和 Terminal-Bench 上也有明显领先。整体画面是:开源模型和闭源模型之间的差距已经压缩到了个位数百分比。几个百分点的差距在基准测试上看起来微不足道,但在真实场景中,能多做一件事和少做一件事之间,往往就隔着这几个点。

不过社区的实际体验比较分化。有用户反馈它在编码任务上大致与 Sonnet 4 相当,也有人觉得跑 PHP 老项目时十分钟写完代码、八小时调试的体验并没有本质改善。Rust 方向的反馈相对积极,长上下文记忆能力有明显提升,模型会主动回溯之前失败的尝试并结合新信息重试。模型能力的提升从来不是均匀分布的,它总是先在某些领域突破,再慢慢渗透到其他角落。

定价策略引发了不少争议。GLM-5 目前仅对每月 80 美元的 Max 订阅用户开放,Pro 用户需要等待逐步放开。API 价格方面,输入 0.80 美元/百万 token,输出 2.56 美元/百万 token,比 DeepSeek V3.2 贵了数倍,比 Kimi K2.5 也略贵。考虑到模型体量更大、激活参数更多、推理速度更慢,成本高是合理的,但对于一个开源模型来说,这个定价策略多少有些矛盾。开源了权重,却在服务层设置了门槛。

本地运行方面,7440 亿参数的 BF16 权重约 1.5TB,即便是 4-bit 量化也需要约 400GB 内存。llama.cpp 已经有了适配的 PR,Unsloth 也上传了量化版本。有人用 Threadripper Pro 加 512GB 内存的方案尝试运行,但速度可想而知。社区真正期待的是蒸馏后的轻量版本,一个 2000 亿参数级别、性能接近 Sonnet 4.5 的开源模型,才是改变游戏规则的东西。

站远一点看,GLM-5 的意义不仅在于模型本身。当开源模型在多个核心基准上逼近甚至超越闭源对手,所谓的“护城河”就变得越来越浅。竞争的焦点正在从“谁的模型更强”转向“谁的生态更完整、部署成本更低、迭代速度更快”。大模型的军备竞赛远没有结束,但决定胜负的变量正在悄悄改变。

reddit.com/r/LocalLLaMA/comments/1r22hlq/glm5_officially_released

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OiRYZZ6vX_YQj-hvO1w6gIvw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券