周一晚上,正准备睡觉,看到卡兹克的公众号推送,说智谱刚刚开源了最新一代模型 GLM-4.5,直接做到了综合 SOTA。
目前,GLM-4.5 模型已经冲到了 Hugging-Face 榜单全球第一名。
下面是我在知乎上看到的一个博主的点评:
先说下这次 GLM-4.5 模型的基本信息:
1、GLM-4.5 是智谱目前发布的新一代旗舰开源大模型,主打代码生成、Agent、推理三大能力原生融合。在全球主流评测基准中,综合平均分全球第三,仅次于闭源的 o3 和 Grok4。
2、明确定位为原生智能体基座。用智谱官方的话说:衡量 AGI 的第一性原理,是在不损失原有能力的前提下融合更多通用智能能力。这句话,应该也是 GLM-4.5 的真实写照,模型即 Agent。
3、采用 MoE 架构,参数效率极高。GLM-4.5 总参数量 3550 亿,激活参数 320 亿;GLM-4.5-Air 总参数量 1060 亿,激活参数 120 亿。相比同类大模型,参数量更小但性能更强。
在 GLM 4.5 的技术博客中,我看到官方的同学说,与 DeepSeek-V3 和 Kimi K2 的设计思路不同。
他们选择了瘦高的模型结构,也就是减少模型的宽度,同时增加模型的深度,这种方式最后验证发现模型在推理能力上表现更加出色。
4、速度和价格也是 GLM-4.5 的重要优势。生成速度可以达到 100Token/s,而且 API 调用价格极低,输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。
智谱选择了最具有代表性的 12 个评测基准,涵盖了知识问答、专业推理、数学、代码生成、多轮对话等多个关键能力板块。
在这 12 项国际主流测试中,GLM-4.5 的综合平均分排名仅次于两款顶级闭源模型。
怪不得它会得到 OpenAI 的点名。
近两个月来,国内的大模型也都很卷。大家齐刷刷的全部开源,而且都在争夺开源模型第一的位子。评测基准的数据只能作为一个参考角度,到底模型好不好,还是得看具体真实场景中的表现。
不过,我觉得智谱这次的新模型,可圈可点的地方主要还是在于它的两个突破:
第一,把通用智能原生融合在了模型之中。训练流程大致是先在 15 万亿 token 的通用大数据上完成预训练,随后围绕代码、推理和智能体能力做了专项优化。
最后又用 RL 的方式提升模型在复杂推理、代码生成和智能体任务中的表现。期待智谱能早点公开技术报告。
第二,低成本和高速度。做过 AI 应用的人都知道,现在的模型成本和速度已经成为关键制约。包括 Cursor,他们最近陷入到价格舆论当中,本质也是由于后端 Claude 的模型太贵,入不敷出。
毫不夸张地说,现在几个头部 AI 应用都像国内的外卖大战一样,在疯狂补贴用户。如果模型的成本能够降低,毫无疑问,这对于整个行业都是利好。
接下来,我做下案例测评。说实话,这篇文章我断断续续写了一天多,主要是因为智谱的 Chat 应用(z.ai)突然开始变卡,估计是昨天涌入了太多新用户。
其实这也能从侧面反应模型的效果,最终好不好,还是得看用户的选择。大家愿意用,喜欢用,本身就是最有力的证明。
根据官方介绍,GLM-4.5 不仅能处理复杂代码,而且在前端动画,以及数据处理方面也有不错的表现。
我用它来做一个可以生成 3:4 的小红书图片的网站。之前,我曾经用 Lovable 做过一版,但 Lovable 整体的实现还是非常费劲,在我调整排版的时候,很明显模型有点吃力,无法准确理解我的表达。
我的提示词是:
我要做一个生成小红书图片的 H5。这个 H5 可以生成两种类型的小红书图片,第一种是带图片和标签的封面,第二种是纯文字的内容页。
封面页,由三部分组成,最上面是图片,大概占整个封面页高度的三分之一,支持用户上传图片,并可以截取图片,截取的图片就是封面页显示的图片。图片下面是标签,标签字稍微小一点,标签在圆角矩形里面,最多只能添加 3 个标签,输入的时候,标签用“;”隔开。标签下面是标题,标题字体稍微大一点。
标题下面是正文,正文的字比标签字大,比标题字小,页面的左边,下面,右边要留白,样式要好看,能识别 MarkDown 语法。
内容页全部是正文(类似第一页标题下方的正文)。
注意:
1、生成的图片要求是 3:4 格式。
2、图片需要漂亮。
3、封面页,上面图片上、左、右和整个图片对齐,下面内容部分左、右、下要留白;内容页上下左右都留白。封面页留白和内容页留白标准一样。
4、封面页,需要可以支持上传图片,并且可以手动裁剪。
5、内容部分,要求支持 MarkDown。
6、有一个预览按钮,添加内容后点预览可以看到排版效果。
7、生成的图片可以导出来。
8、背景不要纯白色,要稍微有一点点发黄。
收到提示词后,GLM-4.5 并不会马上给出答案,而是会先停下来分析需求,弄清楚我到底想要什么,最终效果是什么样。
它会一步步梳理:实现这个目标要用到哪些技术?有没有什么特别的限制?搞清楚这些细节后,才会开始给出具体的实现方案。
这种工作方式其实很像工程师日常解决问题的思路。
拿到新需求,第一反应不是立刻写代码,而是先把需求拆解清楚,判断哪些能做、哪些不能做,技术路线怎么选。只有把这些问题都想明白,后面的执行才会顺利。
一个最佳的工作方法就是把复杂任务拆分为很多个前后关联的小任务,逐步推进,我相信所有优秀的人都是这么做事情的。GLM-4.5 的表现其实挺贴近这种做事方法。
在这之后,GLM-4.5 开始梳理项目结构,并列出接下来的 Todo List。每个任务写得都很具体,先做什么、后做什么一目了然。这样推进起来,基本不会遗漏什么细节,进度也好跟踪。
再往后,GLM-4.5 就是按照 Todo List 逐项推进,每完成一项就标记一下。模型本身不会漏掉待办,但把执行进度实时标出来,推进到哪一步、还剩哪些任务都很清楚。
如果你看过我之前的文章,会发现,其实这本质上就已经是我们熟知的 Agent 应该做的事情,而现在,智谱直接把这种能力融入到了模型之中。
有意思的是,在第 3 到第 7 个任务里,GLM-4.5 注意到这些内容其实都是围绕用户输入和展示展开的,于是直接把它们合并成一个整体任务来做。
这种处理方式效率更高,也说明模型在执行任务时有一定的灵活性。
实际上,很多时候看起来分开的任务,底层逻辑是一样的,完全可以合起来处理。没必要机械拆分成很多小环节,这样反而容易浪费时间和精力。任务合并后,项目整体推进会顺畅不少。
当第 8 和第 9 个小任务完成后,整个应用就基本搭建好了。这时,右侧的显示区面会展现最终效果,方便我们直接预览和体验。
这些生成的代码不仅可以方便下载到本地,还可以直接在线发布,发布成功后,只需通过一个链接,就可以随时访问和使用这个应用,非常方便。
从我发给 GLM-4.5 需求到最后应用搭建完成,整个流程只用了大约 15 分钟。我放一个测试效果 Gif 给大家看下。
GLM-4.5 的整体表现确实不错。上面这个小项目,大家也能看到,它对提示词的理解非常全面,能把各个需求都落实到位,产品基本能直接跑起来,细节把控也到位。当然,UI 样式如果能再美化一下会更好。
这次新模型最让人印象深刻的,还是它原生集成的 Agent 能力。智谱应该是全球第一个,把 Agent、编程和推理这三大能力直接集成到模型本身。
体验下来,这种“模型即 Agent”的能力带来的那种丝滑感,其实已经超越了以往那些只能在单独 Agent 应用里才能看到的体验。
现在,这些能力成了模型的底层能力,直接嵌在 ChatBot 里面,很多流程变得顺畅自然。
也许这会成为大模型下一个阶段的新范式。未来很多事情,不用再在各种工具之间切换,直接在模型里一步到位,效率和体验都会是全新的水平。