OpenAI 刚刚推出了 GPT-5-Codex ——这是在 GPT-5 基础上专门为软件工程优化的版本,也是 Codex 有史以来最大的一次升级,感觉这是全面对标Claude code的一个更新,但又与Claude code不同
这次更新的核心变化主要有三点:
1.GPT-5-Codex 模型上线:专门训练于真实世界的复杂工程任务,包括从零搭建项目、大规模重构、生成测试、调试和代码审查,实现了计算资源的动态调度,可以独立完成长达7小时的复杂重构任务
2.工具全面升级:Codex CLI 重新设计、IDE 插件支持 VS Code 等主流环境、GitHub 集成更深,云端和本地环境无缝切换
3.代码审查能力强化:能自动在 PR 中发现关键漏洞、减少无效评论,直接提出并实现修改建议。
OpenAI四月首次推出 Codex CLI,五月推出 Codex web ,两周前将 Codex 统一为一个由 ChatGPT 账户连接的单一产品体验,能够在本地环境和云端之间无缝切换工作,而不会丢失上下文。现在,Codex 可以在开发的任何地方工作(终端或 IDE、在网页上、在 GitHub 中, ChatGPT iOS 应用中)
现在可以在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅方案中使用,使用额度根据方案不同而异,Business 和 Enterprise 方案还提供购买额外积分或共享积分池的选项。GPT-5-Codex 计划很快通过 API 提供,详情请看ChatGPT 使用限制
https://developers.openai.com/codex/pricing
终端体验:
$ npm i -g @openai/codex
以下是详细信息:
此次升级的核心是全新的GPT-5-Codex模型。作为 GPT-5 的一个特殊版本,它专为agentic coding进行了深度优化。GPT-5-Codex 的训练数据聚焦于真实世界的软件工程场景,使其能够胜任从零构建完整项目、添加功能与测试、调试、执行大规模代码重构,乃至进行严谨代码审查等全方位任务
本次更新还统一了 Codex 的产品体验。用户现在可以通过单一的 ChatGPT 账户,在本地环境和云端之间无缝切换工作,而无需担心上下文丢失。Codex 已深度集成到开发者日常的全流程中,覆盖终端、IDE、网页、GitHub,甚至 ChatGPT iOS 应用。功能已包含在 ChatGPT Plus、Pro、Business、Edu 及 Enterprise 方案中
此次升级的目标是打造一个能深刻理解用户工作上下文、与开发者并肩作战、并能可靠地为团队分担任务的编程队友
GPT-5-Codex本体
GPT-5-Codex 经过专门训练,具备更强的可引导性,能更精准地遵循AGENTS.md文件中的指令,并生成更高质量的代码。开发者只需简单描述需求,即可获得符合预期的成果,无需再为编码风格或代码整洁度编写冗长的指令
1. 在关键基准测试中表现卓越
GPT-5-Codex 的强大能力在多个行业标准和内部基准测试中得到了验证
在SWE-bench Verified (n=500)基准测试中,GPT-5-Codex 的准确率达到74.5%,超越了 GPT-5 的 72.8%
在极具挑战性的代码重构任务(涵盖 Python, Go, OCaml 等语言)上,其性能提升尤为显著,准确率从 33.9% 大幅跃升至51.3%。一个典型的例子是,它成功处理了一个来自 Gitea 的 Pull Request,该任务涉及修改 232 个文件和 3,541 行代码
2. 动态调整思考时间,兼顾速度与深度
GPT-5-Codex 的一个关键特性是它能根据任务的复杂性动态调整计算资源。对于定义明确的小请求或实时聊天,其响应会非常迅速;而对于大型重构等复杂任务,它会投入更长的时间进行持久、独立的执行。测试结果显示,GPT-5-Codex 能够连续独立工作超过7个小时,不断迭代实现方案、修复测试失败,并最终成功交付
这种效率也体现在tokens生成上。根据 OpenAI 内部员工流量数据显示,对于简单任务(token生成量最低的10%),GPT-5-Codex 比 GPT-5 减少了93.7%的token。而对于需要深度推理的复杂任务(token生成量最高的10%),它会投入更多资源,token生成量增加了102.2%,以确保高质量的输出
3. 更精准、更高质量的代码审查
GPT-5-Codex 经过专门训练,擅长发现代码中的关键缺陷。它会导航代码库,梳理依赖关系,并运行代码和测试来验证正确性。评估结果显示:
不正确评论大幅减少:由 GPT-5-Codex 提出的不正确评论比例从 13.7% 骤降至4.4%。
高影响力评论显著增加:其提出的高影响力评论比例从 39.4% 提升至52.4%
更聚焦重点:它平均每个 PR 提出的评论数更少(从1.32降至0.93),这意味着它更专注于提出关键、有价值的建议,避免了信息过载
此外,GPT-5-Codex 在前端任务中也非常强,能够创建美观的桌面和移动应用。具备多模态能力,可以接收用户提供的图像或截图作为输入,在云端工作中直观地检查其进度,并向用户展示其工作的截图
需要注意的是:与通用模型 GPT-5 不同,官方建议仅在 Codex 或类似的代理式编程环境中使用
Codex 生态系统全面更新
为使 Codex 成为更出色的结对程序员,其整个生态系统也获得了全面更新
1. 全新 Codex CLI
OpenAI 依据社区的反馈,对开源的 Codex CLI 进行了重建。现在,它支持:
附加和分享图像:直接在 CLI 中发送截图、线框图和设计稿,以建立清晰的设计共识
智能任务跟踪:对于复杂工作,Codex 会生成一个待办事项列表来跟踪进度
强大的工具集:集成了网页搜索、MCP 等工具,以连接外部系统,且工具使用更加准确
优化的终端 UI:工具调用和代码差异(diffs)的展示格式更清晰易读
简化的审批模式:提供只读、自动(工作区外需审批)和完全访问三种模式,并支持压缩对话状态以管理长会话。详情请看Codex CLI 快速入门
https://developers.openai.com/codex/cli
2. Codex IDE 扩展
Codex 现已深入集成到开发者的 IDE 中,支持 VS Code、Cursor 及其他 VS Code 分支
利用本地上下文:Codex 能利用用户已打开的文件和选中的代码,让用户用更短的提示获得更快、更精准的结果
无缝云端协作:用户可以在 IDE 内创建云端任务、跟踪进度、审查结果,甚至直接在 IDE 中打开云端任务进行最后修改,Codex 会全程保持上下文同步。详情请看IDE 扩展快速入门
https://developers.openai.com/codex/ide
3. Codex 云
云端代理现在更贴近开发工作流,让用户无需离开编辑器或 GitHub 即可委派任务
性能大幅提升:通过容器缓存技术,新任务和后续操作的中位完成时间缩短了90%
自动化环境设置:Codex 会自动扫描并执行项目中的设置脚本(如pip install),以配置运行环境和依赖
可视化工作流:与 CLI 类似,用户可以使用图像分享设计规范或UI错误。Codex 可以在自己的浏览器中构建、迭代,并附上最终成果的截图到任务或 GitHub PR 中。详情请看官方文档
https://developers.openai.com/codex/cloud
4. 智能代码审查
Codex 的代码审查远超传统的静态分析工具。它能理解 PR 的真实意图,结合整个代码库和依赖关系进行推理,并执行代码和测试来验证行为
自动化审查流程:为 GitHub 仓库开启后,Codex 会在 PR 从草稿变为就绪时自动进行审查并发布分析报告
交互式修复:如果 Codex 建议修改,用户可以直接在 PR 评论区要求它来实施
按需触发:用户也可以通过@codex review或更具体的指令(如@codex review for security vulnerabilities)来随时请求审查
在 OpenAI 内部,Codex 已经审查了其绝大多数的 PR,每天捕获数百个问题,极大地提升了团队的开发速度和信心
https://developers.openai.com/codex/cloud/code-review
安全
沙盒环境:默认情况下,无论本地还是云端,Codex 都在禁用了网络访问的沙盒中运行,以防止有害操作和提示注入攻击
权限控制:在执行潜在危险操作前,Codex 会请求用户许可。开发者可以根据风险承受能力自定义安全设置,例如在云端限制网络访问到受信任的域,或在 CLI/IDE 中审批高权限命令
透明与可追溯:Codex 会提供引用、终端日志和测试结果,帮助用户理解它的工作过程。官方始终建议将 Codex 视为辅助审查工具,而非人类审查的替代品
与 OpenAI 对 GPT-5 的方法一致,GPT-5-Codex 在生物和化学领域被视为高能力模型,并已实施了严格的安全措施来最小化相关风险。详情请看其系统卡附录
参考:
https://openai.com/index/introducing-upgrades-to-codex/