最近,OpenAI发布了最新的Codex编程,这次发布的Codex覆盖了日常写代码的场景——终端、IDE、Web等,并被OpenAI命名为GPT-5-Codex 。
总得来说,这次新版本的Codex有以下几个特性:
新版本的Codex对比GPT-5中,在SWE-bench上比 GPT-5 高出 1.7 个百分点,说明 Codex 版本在自动修复真实代码 bug 的能力略强。
而在代码重构任务上,GPT-5-Codex 明显优于普通 GPT-5,准确率提升 17.4 个百分点,几乎提升了 50% 相对性能。
还记得GPT-5因为是混合推理,所以它能够根据任务的复杂度进行相应的思考。那么新版本的Codex也是一样的。GPT-5-Codex 会根据任务复杂度更加动态地调整“思考”时间。该模型结合了代码助手的两项关键能力:一是与开发者进行交互式配合,二是能够在长任务上持续、独立地执行。这意味着在小而明确的请求或聊天场景中,Codex 响应会更快;而在复杂任务(如大型重构)上,它会花更长时间工作。
在 OpenAI测试的过程当中,用户请求的一些简单任务中(生成数比较少token的任务),GPT-5-Codex 比 GPT-5 少用 93.7% 的 token;而比较复杂的任务上,GPT-5-Codex 会花费两倍时间进行推理、编辑、测试和迭代。
在代码审查性能对比(GPT-5 vs GPT-5-Codex)上,GPT-5-Codex 专门强化代码审查与缺陷发现能力,能浏览代码库、分析依赖、运行测试并验证正确性,输出更可靠的评论。同时GPT-5-Codex 审查更精准、干扰更少,让用户注意力集中在关键缺陷上,提升代码质量与审查效率。
目前Codex的功能还是比较赞的,在我测试下,只需要一个简单的 prompt,它就能够马上给我写出一个项目来。
比如我这里想要让它分析一下热门股票的信息:
帮我根据 macd、rsi 等指标,写一个可以筛选 A 股的股票筛选器
它就一开始帮我分析一下这个项目该怎么实现,同时能够在它思考的过程中知道它做了什么事情:
然后最后也会返回给我一些使用建议。当然如果你不喜欢这个修改,可以直接点击“undo”按钮返回原始的文件
最后生成的效果已经基本满足我的要求了~
其实目前国内外已经有很多AI编程工具了,那么新版本的Codex对比其他来说有什么样的优势呢?我们从任务复杂度、使用体验、响应时间等方面进行了不同的对比。
对比维度 | GPT-5-Codex | Claude Code | Gemini CLI | Cursor | CodeBuddy |
---|---|---|---|---|---|
复杂任务与长时间任务能力 | 很强。对于大型重构、测试修复、迭代任务有动态思考时间机制,可以持续运行数小时,能自己迭代修复测试失败。适合复杂流程。 | 也具备 agent 性能,可以编辑文件、运行测试、创建 PR、修复 bug 等。能处理多步骤任务,但公开资料中持续独立运行时间未必像 Codex 那么长(至少没明确 “7 小时以上”这种表述)。 | 也支持复杂任务,如重构、调试、调试覆盖率改进、文件操作。Gemini CLI 的上下文窗口很大,能理解整个项目结构。适合大体量代码库。 | 对中等到大型项目支持不错。Cursor 能做多文件重构、代码基地查询、智能重写等。对于非常非常庞大、非常深的复杂逻辑流程可能稍逊于专门的 agent 工具。 | CodeBuddy 擅长于多文件生成和重构/诊断,但在“长时间独立执行/自动迭代修复复杂错误”这一类能力上,不一定等同于 Codex 的新版本那种极限流程(公开资料中没说能连续几小时自主执行复杂重构)。 |
速度响应 vs 延迟 | 小任务/明确请求下响应快;复杂任务时为保证质量会慢下来,花时间思考/测试/迭代。 | 一些用户反馈,复杂任务时可能会感觉慢(例如在修复 bug 或大重构上),但质量较高。(Reddit) | Gemini CLI 强调“快速”、“响应多任务”、“命令行中自然语言控制工作流”,在速度上有比较大的预览版免费额度,可能响应快;但对于非常复杂任务也会有延迟。(Medium) | Cursor 在编辑/重构/智能重写方面提供几乎实时的编辑体验(尤其是在用户交互比较频繁的上下文中)。延迟一般可接受。 | CodeBuddy 应该中等偏上:对于生成/重构/诊断等任务,需要一定计算/推理时间,但总体定位是提升效率、缩短开发时间。可能不如 Codex 在极端复杂任务里的持续执行能力。 |
交互性 & 操作体验 | 强。因为支持交互式开发 + agent 式的自动执行 + 长期迭代 +可以和开发者一起互动/接收反馈/修复测试失败等。 | 非常交互:命令行自然语言指令、PR/commit 整合、问题到代码的闭环流程。也能回答关于架构/逻辑的问题。(Anthropic) | 操作体验也不错,直接通过 CLI 与代码库交互。支持文件读写、测试、调试等。用户界面是 terminal → 简洁。 | Cursor 的编辑器体验强,非常适合日常写/改/重构/查询/debug,有很好的用户界面支持。 | CodeBuddy 提供语言自然指令、多文件重构、代码审查等交互体验。适合增加开发效率、协作等。 |
资源效率 / Token/成本控制 | 新的 Codex 在简单任务上节省 token/资源;复杂任务上虽然消耗更多但理应输出质量更好/稳定。这个动态资源分配是其卖点之一。 | Claude Code 可配置上下文、pull context 的机制,但自动拉上下文也会使用 tokens。用户报告中提到了「每小时内容上下文压缩/conversation context 压缩」的问题。(Business Insider) | Gemini CLI 在上下文窗口非常大,对项目整体理解能力强,所以可能在资源消耗/计算成本上比小工具高。但免费额度给予的样本还不错。 | Cursor 对 token 的使用依赖所选模型/计划/上下文规模,多文件索引和查询可能使用较多资源。用户还要选择模型等级/订阅等。 | CodeBuddy 在多文件生成/重构/诊断中会消耗一定资源,但可能在中等任务下效率不错。是否有类似 Codex 动态思考时间那种资源分配机制公开资料中没提到。 |
最后不同工具的推荐指数如下:
工具 | 复杂任务能力 | 上下文理解 | 响应速度 | 交互体验 | 推荐值 |
---|---|---|---|---|---|
GPT-5-Codex | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ | 9.5 |
Claude Code | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★★ | 9.0 |
Gemini CLI | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | 8.5 |
Cursor | ★★★☆☆ | ★★★★☆ | ★★★★★ | ★★★★★ | 8.2 |
CodeBuddy | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | 8.0 |
随着 AI 编程工具的竞争加剧,Codex、Claude Code、Gemini CLI、Cursor、CodeBuddy 等正在形成一个多元生态。对开发者而言,选择合适的工具将越来越重要:
未来我们或许会看到更多 AI 编程助手走向“自动化开发代理”,不仅仅是“补全代码”,而是能从需求到部署全程协助。GPT-5-Codex 已经展现出这种趋势——它不只是帮你写代码,而是能理解你的项目目标,并努力把任务完成到可交付状态。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。