使用Codex实现热门股票筛选

原创

算法一只狗

发布于 2025-09-26 22:35:11

1990

文章被收录于专栏：算法一只狗算法一只狗

最近，OpenAI发布了最新的Codex编程，这次发布的Codex覆盖了日常写代码的场景——终端、IDE、Web等，并被OpenAI命名为GPT-5-Codex 。

总得来说，这次新版本的Codex有以下几个特性：

专为 Agent 编程优化：GPT-5-Codex 在 GPT-5 的基础上进行了优化，更适合执行复杂的软件工程任务，比如重构大型代码库、代码审查、长期运行任务等。
动态“思考时间”机制：这个其实也是GPT-5的特性之一。它会根据用户输入的任务的复杂程度，动态分配计算资源和时间，这个“思考”时间可能从几秒钟到 长达七小时。也就是说，如果模型判断任务需要更多资源，它可以在执行过程中增加投入。
更大的可用范围：GPT-5-Codex 已经被集成到 Codex 助手中，同时ChatGPT 的 Plus、Pro、Business、Education（Edu）和 Enterprise 用户等都可以进行使用。在各种写代码的平台上，比如终端（CLI）、IDE、GitHub 以及 ChatGPT 界面中都可以进行使用。
在基准测试中的表现提升：在多个标准编程基准测试（benchmarks）里，GPT-5-Codex 的表现比标准的 GPT-5 更好。它在大规模重构任务、SWE-bench 类别的验证任务中尤其突出。并且代码审查的质量更高，错误更少，评论（comments）对代码改进影响更明显。

GPT-5-Codex能力大幅提升

新版本的Codex对比GPT-5中，在SWE-bench上比 GPT-5 高出 1.7 个百分点，说明 Codex 版本在自动修复真实代码 bug 的能力略强。

而在代码重构任务上，GPT-5-Codex 明显优于普通 GPT-5，准确率提升 17.4 个百分点，几乎提升了 50% 相对性能。

还记得GPT-5因为是混合推理，所以它能够根据任务的复杂度进行相应的思考。那么新版本的Codex也是一样的。GPT-5-Codex 会根据任务复杂度更加动态地调整“思考”时间。该模型结合了代码助手的两项关键能力：一是与开发者进行交互式配合，二是能够在长任务上持续、独立地执行。这意味着在小而明确的请求或聊天场景中，Codex 响应会更快；而在复杂任务（如大型重构）上，它会花更长时间工作。

在 OpenAI测试的过程当中，用户请求的一些简单任务中（生成数比较少token的任务），GPT-5-Codex 比 GPT-5 少用 93.7% 的 token；而比较复杂的任务上，GPT-5-Codex 会花费两倍时间进行推理、编辑、测试和迭代。

在代码审查性能对比（GPT-5 vs GPT-5-Codex）上，GPT-5-Codex 专门强化代码审查与缺陷发现能力，能浏览代码库、分析依赖、运行测试并验证正确性，输出更可靠的评论。同时GPT-5-Codex 审查更精准、干扰更少，让用户注意力集中在关键缺陷上，提升代码质量与审查效率。

初步体验

目前Codex的功能还是比较赞的，在我测试下，只需要一个简单的 prompt，它就能够马上给我写出一个项目来。

比如我这里想要让它分析一下热门股票的信息：

帮我根据 macd、rsi 等指标，写一个可以筛选 A 股的股票筛选器

它就一开始帮我分析一下这个项目该怎么实现，同时能够在它思考的过程中知道它做了什么事情：

然后最后也会返回给我一些使用建议。当然如果你不喜欢这个修改，可以直接点击“undo”按钮返回原始的文件

最后生成的效果已经基本满足我的要求了～

Codex对比一些主流的AI编程工具

其实目前国内外已经有很多AI编程工具了，那么新版本的Codex对比其他来说有什么样的优势呢？我们从任务复杂度、使用体验、响应时间等方面进行了不同的对比。

对比维度	GPT-5-Codex	Claude Code	Gemini CLI	Cursor	CodeBuddy
复杂任务与长时间任务能力	很强。对于大型重构、测试修复、迭代任务有动态思考时间机制，可以持续运行数小时，能自己迭代修复测试失败。适合复杂流程。	也具备 agent 性能，可以编辑文件、运行测试、创建 PR、修复 bug 等。能处理多步骤任务，但公开资料中持续独立运行时间未必像 Codex 那么长（至少没明确 “7 小时以上”这种表述）。	也支持复杂任务，如重构、调试、调试覆盖率改进、文件操作。Gemini CLI 的上下文窗口很大，能理解整个项目结构。适合大体量代码库。	对中等到大型项目支持不错。Cursor 能做多文件重构、代码基地查询、智能重写等。对于非常非常庞大、非常深的复杂逻辑流程可能稍逊于专门的 agent 工具。	CodeBuddy 擅长于多文件生成和重构／诊断，但在“长时间独立执行／自动迭代修复复杂错误”这一类能力上，不一定等同于 Codex 的新版本那种极限流程（公开资料中没说能连续几小时自主执行复杂重构）。
速度响应 vs 延迟	小任务／明确请求下响应快；复杂任务时为保证质量会慢下来，花时间思考／测试／迭代。	一些用户反馈，复杂任务时可能会感觉慢（例如在修复 bug 或大重构上），但质量较高。(Reddit)	Gemini CLI 强调“快速”、“响应多任务”、“命令行中自然语言控制工作流”，在速度上有比较大的预览版免费额度，可能响应快；但对于非常复杂任务也会有延迟。(Medium)	Cursor 在编辑／重构／智能重写方面提供几乎实时的编辑体验（尤其是在用户交互比较频繁的上下文中）。延迟一般可接受。	CodeBuddy 应该中等偏上：对于生成／重构／诊断等任务，需要一定计算／推理时间，但总体定位是提升效率、缩短开发时间。可能不如 Codex 在极端复杂任务里的持续执行能力。
交互性 & 操作体验	强。因为支持交互式开发 + agent 式的自动执行 + 长期迭代 +可以和开发者一起互动／接收反馈／修复测试失败等。	非常交互：命令行自然语言指令、PR／commit 整合、问题到代码的闭环流程。也能回答关于架构／逻辑的问题。(Anthropic)	操作体验也不错，直接通过 CLI 与代码库交互。支持文件读写、测试、调试等。用户界面是 terminal → 简洁。	Cursor 的编辑器体验强，非常适合日常写／改／重构／查询／debug，有很好的用户界面支持。	CodeBuddy 提供语言自然指令、多文件重构、代码审查等交互体验。适合增加开发效率、协作等。
资源效率 / Token／成本控制	新的 Codex 在简单任务上节省 token／资源；复杂任务上虽然消耗更多但理应输出质量更好／稳定。这个动态资源分配是其卖点之一。	Claude Code 可配置上下文、pull context 的机制，但自动拉上下文也会使用 tokens。用户报告中提到了「每小时内容上下文压缩／conversation context 压缩」的问题。(Business Insider)	Gemini CLI 在上下文窗口非常大，对项目整体理解能力强，所以可能在资源消耗／计算成本上比小工具高。但免费额度给予的样本还不错。	Cursor 对 token 的使用依赖所选模型／计划／上下文规模，多文件索引和查询可能使用较多资源。用户还要选择模型等级／订阅等。	CodeBuddy 在多文件生成／重构／诊断中会消耗一定资源，但可能在中等任务下效率不错。是否有类似 Codex 动态思考时间那种资源分配机制公开资料中没提到。

最后不同工具的推荐指数如下：

工具	复杂任务能力	上下文理解	响应速度	交互体验	推荐值
GPT-5-Codex	★★★★★	★★★★★	★★★★☆	★★★★☆	9.5
Claude Code	★★★★☆	★★★★☆	★★★☆☆	★★★★★	9.0
Gemini CLI	★★★★☆	★★★★★	★★★★☆	★★★★☆	8.5
Cursor	★★★☆☆	★★★★☆	★★★★★	★★★★★	8.2
CodeBuddy	★★★☆☆	★★★★☆	★★★★☆	★★★★☆	8.0