
— 特色专栏 —
大家好,我是民工哥!
号称全球最强下一代大模型——Grok 4 终于发布了!

刚刚,马斯克发布全球最强 AI 模型 Grok 4!能力超乎我们想象。
2025 年 7 月 10 日,埃隆·马斯克在直播活动中正式宣布推出 Grok 4。Grok 4 定位为全球最强 AI 模型,具备双版本架构、专业编程能力、高难度知识领域优势及创新功能,旨在通过精准数据筛选提供可靠服务,但面临测试公正性、个人偏见及商业化挑战。






xAI 团队决定跳过原计划的 Grok 3.5 版本,直接发布 Grok 4,这一决定标志着 xAI 在人工智能领域的重大战略调整,也反映出该公司对新模型性能的强烈信心。
双模型架构:Grok 4 包含两个核心版本,即旗舰版 Grok 4 和专业编程版 Grok 4 Code。这种差异化的产品策略旨在满足不同用户群体的特定需求,从普通用户到专业开发者都能找到合适的工具。
旗舰版 Grok 4:定位为“Think Bigger and Smarter”的通用 AI 模型,在自然语言处理、数学运算和逻辑推理方面表现出色,被誉为拥有“无可匹敌的能力”。
专业编程版 Grok 4 Code:专门为编程开发而设计,支持直接嵌入到代码编辑器中使用,为开发者提供实时的编程辅助。该模型已经与当前最受欢迎的 AI IDE 产品 Cursor 实现了深度集成。
函数调用功能:允许 Grok 4 直接触发外部工具或 API 接口,如查询天气信息、预订机票、发送邮件等。这意味着用户不再需要手动执行这些操作,AI 可以根据用户的意图自动完成相应的任务。
结构化输出功能:解决了 AI 模型输出格式不统一的问题。Grok 4 能够返回规整的数据格式,如 JSON、表格等,方便程序直接解析和处理。这一功能对于需要将 AI 集成到现有系统中的企业用户来说尤为重要。
长推理输出与测试时间计算(TTC):支持在推理过程增加推理时间(或增加推理过程的思维链 tokens 的数量)来获得更好的效果。这种模式被称为 TTC,与 OpenAI 的 low、medium 和 high 模式以及 Google 的 deeper thinking 模式类似。
HLE 测试:在被誉为“人类最后的考试”的 HLE 测试中,Grok 4 取得了 35%的基础分数,开启推理功能后分数提升至 45%,显著超越了 OpenAI 的 o3 模型和 Google 的 Gemini 系列模型。


其他基准测试:在 AIME 2025(美国数学邀请考试)、GPQA(研究生级别物理问题)以及 SWE-Bench(软件工程基准测试)等多个评估项目中,Grok 4 也达到了当前最先进的技术水平。
智能指数:根据 Artificial Analysis 公布的跑分结果,Grok 4 的智能指数为 73,高于 OpenAI 的 o3 模型(70 分)、谷歌 Gemini 2.5 Pro 模型(70 分)等竞争对手。
Grok 4 的发布打破了 OpenAI 在大语言模型领域的垄断地位,为市场注入了新的竞争活力。xAI 公司估值已经突破 1130 亿美元,成为 AI 领域的新巨头。
专业化的 Grok 4 Code 直接挑战了 GitHub Copilot 等编程助手产品,而旗舰版 Grok 4 则与 ChatGPT、Claude 等通用 AI 模型形成正面竞争。
尽管 Grok 4 在技术层面取得了显著进步,但如何在已经相对成熟的 AI 市场中找到自己的定位,如何与 OpenAI、Google 等巨头竞争,都是 xAI 公司需要深思的问题。
👍 如果你喜欢这篇文章,请点赞并分享给你的朋友!