Codex 生产力实录：一个开发者用了快一年后的真实感受

从「看起来不错」到「真的离不开」#

2025 年 5 月，OpenAI 发布了 Codex 的研究预览版。当时很多人试了一下，觉得「嗯，有点意思」，然后就回去继续用 Cursor 或者 Copilot 了。Zachary Proser 也是其中之一。他在第一时间写了评测，态度是「谨慎乐观但总体持怀疑态度」。

快一年过去了，他更新了自己的评测。结论很简单：之前的怀疑已经被彻底推翻了。

这不是又一篇「AI 改变世界」的鸡汤文。这是一位在 WorkOS Applied AI 团队工作的工程师，每天用 Codex 处理真实的生产代码，用数据和具体场景告诉你，这个工具到底好在哪里，还有哪些地方不够好。

他每天早上的工作流#

这是整篇文章最有价值的部分。

Zachary 的一天从一杯咖啡开始。但在喝咖啡之前，他会先做一件事：把当天要做的维护任务批量扔给 Codex。

比如某天早上的任务清单：

修复用户注册流程中的 TypeScript 类型错误
更新 Webhook 端点以支持新的事件格式
给管理后台的 React 组件加上更好的错误边界
把旧的认证中间件迁移到新的会话管理系统

这些任务有一个共同特点：它们属于「已知模式的重复性工作」。代码库里已经有了类似的实现，Codex 要做的是照着已有的风格把新功能补上。

以前这些事情会吃掉他 30% 到 40% 的上午时间。现在他把这些任务塞进 Codex 的队列，去喝咖啡、看消息。回来的时候，通常已经有 2 到 3 个 PR 准备好等他 review 了。

成功率从最初的 40%~60%，涨到了现在的 85%~90%。 这个数字只针对「范围明确的维护性任务」。更复杂的架构性工作，他仍然会用 Cursor 或 Claude Code 来做。

这就是他所说的「两层工作流」：Codex 负责 SDLC 中的体力活，专用编码工具负责需要深度思考的部分。

真正变好的三件事#

稳定性和错误处理#

2025 年的 Codex 有一个让人抓狂的问题：任务失败了，但你不知道为什么。没有报错信息，没有建议，就是静静地失败了。

现在不一样了。当任务失败时，Codex 会给出清晰的错误信息，甚至会建议修复方案。从「神秘崩溃」变成了「这个方案行不通，试试这个」。对于一个每天要处理大量任务的工具来说，这种透明度至关重要。

多轮对话和分支迭代#

早期的 Codex 有一个很别扭的工作流：每次迭代都要开一个新 PR。你想在一个分支上继续改？非常困难。

现在你可以：

往已有分支上追加 commit
在任务里来回对话，讨论实现细节
对具体改动提出修改意见，而不用重新开任务

这一点的提升是质的飞跃。Zachary 提到他用 Codex 完成了一次跨多个文件的认证系统迁移，整个过程通过多轮对话逐步细化，最终成功了。这在一年前是不可想象的。

代码质量和上下文感知#

生成的代码质量明显提升了。Codex 现在能：

更一致地遵循已有的代码风格和模式
处理你没有明确提到的边界情况
在实现过程中主动建议性能优化
跨文件保持 TypeScript 类型的一致性

特别是最后一点。在大型 TypeScript 项目中，类型一致性是个容易出错的地方。Codex 能理解项目中已有的类型定义，并在新代码中正确引用，这说明它对代码库的「理解」确实在加深。

一个值得关注的新功能：预览迭代系统#

Codex 新增了一个预览功能。当你提交一个任务时，它会生成 2 到 4 个不同的实现方案，让你选择一个来执行。

Zachary 举了一个例子。他要创建一个新的 API 端点，Codex 给了他四个版本：

最小实现，侧重速度
健壮版本，包含全面的错误处理
向后兼容方案，不会破坏现有接口
可扩展版本，为未来的功能留出空间

这个功能的价值在于，它把「选方案」这个决策权留给了开发者。AI 负责生成选项，人负责判断哪个选项最适合当前的业务语境。

还不够好的地方#

模型选择不透明#

你仍然无法选择 Codex 用哪个模型来处理你的任务。系统会根据任务复杂度、仓库大小等因素自动选择。

对于理解不同模型之间权衡的开发者来说，这种不透明性确实令人不爽。有时候你想让最强的模型来处理一个复杂的架构决策，有时候一个简单的 CRUD 生成用小模型就够了。目前你只能接受系统的安排。

网络访问（已大幅改善）#

这是 2025 年的一个主要痛点。Codex 的沙箱环境完全无法访问网络，这意味着你没法安装依赖、跑集成测试、或者调用外部 API。

现在已经有了细粒度的网络控制选项：

仅限包管理器：只允许访问 npm、PyPI 等注册表
完全联网：允许所有出站请求
指定域名：只允许访问白名单中的站点
完全隔离：和以前一样，不允许任何网络访问

这个改进使得在 Codex 里跑完整的项目成为可能，而不只是做单文件的编辑。

Codex 在训练 Codex#

OpenAI 之前声称他们用 Codex 自身来改进 Codex。从一年的使用体验来看，这个说法得到了印证。

改进曲线非常陡峭，而且持续稳定，不像是「偶尔回来更新一下模型」，更像是「系统性地、自动化地在优化」。失败模式也从「神秘崩溃」变成了「这个方案不行，换一个试试」。

这种反馈循环本身就很有意思。用户每天产生的 Codex 使用数据，被用来训练下一代 Codex，然后用户得到更好的体验，产生更多数据。这是一个正向飞轮。

对实际工作的影响#

Zachary 的总结是：Workflow 确实被改变了，而且是根本性的改变。

具体体现在：

晨间例行：3 到 5 个任务并行启动，喝咖啡回来就有 PR 可以 review
功能开发：在成熟的代码库中，先画架构，再让 Codex 处理实现细节
维护积压：依赖更新、文档修复、测试覆盖率提升这些「一直想做但没时间做」的事情，现在可以一股脑扔给 Codex

在 WorkOS 的团队层面，功能交付速度有了可衡量的提升。不是因为 Codex 取代了开发者，而是因为它接管了那些消耗 30%~40% 开发时间的实现性体力活。

几点思考#

读完这篇评测，有几个点特别值得琢磨。

第一，「两层工作流」可能是未来一段时间的主流模式。 用 AI 处理可批量化的维护性任务，用传统工具处理需要深度思考的架构性工作。这不是在两个工具之间选一个，而是让它们各司其职。

第二，「成熟的代码库」是 Codex 发挥实力的前提。 如果你的项目结构混乱、没有统一的风格规范、缺少类型定义，Codex 的表现会大打折扣。这反过来要求团队在代码质量上投入更多，AI 不是万能的，它需要一个好的基础才能工作。

第三，成功率 85%~90% 听起来很高，但剩下的 10%~15% 仍然需要人来兜底。 这意味着你不能完全放手，review 环节不可或缺。但如果 90% 的 PR 质量已经可以接受，review 的重心就从「检查实现细节」变成了「确认方向是否正确」，这本身就是效率提升。

第四，Codex 训练 Codex 的飞轮效应值得关注。 当一个 AI 工具的用户量足够大，使用数据的反馈就能形成自改进循环。这可能是 OpenAI 在编程工具赛道上的一个结构性优势。

参考来源：OpenAI Codex Review 2026 — Updated from Daily Use，作者 Zachary Proser，2026 年 3 月 2 日发布。本文基于原文核心观点进行了原创分析和重写。