用了快一年 Codex 后,这位开发者说出了最真实的评价

从怀疑到离不开,需要多久?#
去年五月,Zach Proser 写了一篇 Codex 的初体验评测。那时候他的结论很克制:「有潜力,但还太粗糙。」任务成功率大概只有 40% 到 60%,多轮对话经常跑偏,错误信息让人摸不着头脑。
快进到 2026 年 3 月,他在 WorkOS 的 Applied AI 团队维护着多个部署在 Cloudflare 和 Vercel 上的全栈 JavaScript 应用。Codex 已经从「偶尔试试」变成了他日常开发流程的核心组成部分。
他用一句话总结了变化:「不是细微的改善,是天壤之别。」
一个典型的工作日早晨#
现在 Zach 的工作日是这样开始的:
打开 Codex,一口气丢进去 4 到 5 个任务,然后去倒杯咖啡。
比如这些:
- 修复用户入职流程中的 TypeScript 类型错误
- 更新 Webhook 端点以支持新的事件 schema
- 给管理后台的 React 组件加上更好的错误边界
- 把旧的认证中间件迁移到新的会话管理方案
这些任务曾经要吃掉他 30% 到 40% 的上午时间。现在 Codex 在后台处理这些,他可以先去看看消息、做做规划。等咖啡喝完,通常已经有 2 到 3 个 PR 等着他 review 了。
然后他才会切换到 Cursor 或者 Claude Code,去做更需要深度思考的架构性工作。
这种「双层工作流」的思路很有意思:让 Codex 负责那些模式明确、代码库成熟的维护性工作,把需要创造力的部分留给人类加专用工具。
成功率从 40% 飙到 85%#
这是最让 Zach 感到惊讶的变化。
一年前,Codex 处理维护性任务的成功率大概在 40% 到 60%。这意味着你丢 5 个任务进去,可能只有 2 到 3 个能用。剩下那些要么代码质量不行,要么直接报错。
现在,对于范围清晰、代码库成熟的维护性工作,成功率已经到了 85% 到 90%。这个数字意味着什么?意味着你可以放心地把日常琐事交给它,不用花太多精力去「调教」。
为什么提升这么大?Zach 总结了几个关键改进。
错误处理:从「静默失败」到「主动建议」#
一年前最让人抓狂的是:任务失败了,但你不知道为什么。错误信息要么没有,要么是天书。
现在完全不同了。任务失败时,Codex 会给出清晰的错误信息,甚至主动建议修复方案。从「神秘崩溃」变成了「这条路走不通,试试这个」,这种变化对开发体验的提升是巨大的。
多轮对话和分支更新:终于能迭代了#
旧版 Codex 的一个大问题是:你没法在同一个分支上持续迭代。每次修改都要开新 PR,这让大型重构变得很痛苦。
现在你可以:
- 可靠地往已有分支推送后续提交
- 就实现细节进行来回对话
- 在现有任务上请求特定修改,而不用重新开一个
Zach 最近用 Codex 迁移了一个跨多个文件的复杂认证系统,多轮迭代居然真的跑通了。
预览迭代系统:像有四个人同时提方案#
这是最有趣的新功能。当你提交一个任务时,Codex 会生成 2 到 4 种不同的实现方案,让你选择。
比如一个 API 端点的实现,它可能给出:
- 一个追求速度的精简版
- 一个带有完整错误处理的稳健版
- 一个优先考虑向后兼容的版本
- 一个为未来扩展优化的版本
这种感觉就像有好几个资深工程师同时提出方案,然后你根据具体场景选最合适的那个。
网络连接:从「完全断网」到「精细化控制」#
一年前,Codex 的沙箱完全没有网络连接。这意味着你没法安装依赖、跑集成测试、或者调用外部 API。对于日常开发来说,这几乎是致命的限制。
现在 OpenAI 提供了细粒度的网络访问控制:
- 仅包管理器:允许访问 npm、PyPI 等已知注册中心
- 完全开放:放开出站访问,用于集成测试和 API 调用
- 指定域名:白名单特定网站
- 完全沙箱:和以前一样,完全隔离
这个改进解决了实际开发中最常见的痛点。安装依赖、跑测试、调用外部服务,现在都可以根据安全需求灵活配置。
最有意思的发现:Codex 在用 Codex 改进自己#
OpenAI 之前说过他们用 Codex 本身来改进 Codex。Zach 说,现在证据已经很明显了。
改进曲线陡峭而持续,这更像是系统化的自动优化,而不是简单的模型版本升级。那些在 2025 年中期稳定失败的任务,现在基本都能成功。更重要的是,失败模式从「莫名其妙崩了」变成了「这个方案不行,建议换一个」。
这种自我改进的循环很有意思:用户用 Codex 产生的数据,被用来训练更好的 Codex,然后用户又用更好的 Codex 产生更高质量的数据。飞轮效应正在显现。
还有什么不爽的?#
模型选择不透明#
你没法选择哪个模型来处理你的任务。Codex 内部会根据任务复杂度、代码库大小等因素自动选择。
对于理解不同模型能力边界的开发者来说,这种缺乏控制的感觉不太舒服。有时候你想用最强的推理模型去处理复杂的架构决策,有时候一个简单的 CRUD 生成用小模型就够了。
系统显然在做智能决策,复杂任务会分配到更强的模型,简单的就用更快的。但如果有手动覆盖的选项就更好了。
个人项目的体验#
在个人项目上,Codex 的表现甚至更好。当你有一个成熟的代码库,有明确的模式、规范和架构时,Codex 能非常一致地延续这些模式。
比如在 Zach 的个人网站项目中,他可以让 Codex:
- 添加新的博客文章模板,带结构化元数据
- 创建阅读进度指示器组件,匹配现有设计系统
- 实现基于标签的博客索引页过滤
它理解现有的 Next.js 结构,遵循组件模式,尊重 Tailwind 类名的使用习惯,甚至保持了他偏好具名导出而非默认导出的编码风格。
一个值得借鉴的工作流思路#
Zach 的经验其实揭示了一个更通用的模式:
把 AI 编程工具分层使用。
第一层是 Codex 这类「后台执行者」,负责批量处理那些模式明确、范围清晰的维护性工作。你不需要盯着它,它可以并行跑多个任务。
第二层是 Cursor、Claude Code 这类「深度协作者」,用于需要人类判断力的架构决策和复杂功能开发。你和工具紧密配合,来回迭代。
这种分层不是非此即彼的选择,而是互补的组合。Codex 处理了原来吃掉 30% 到 40% 开发时间的琐事,让你能把精力集中在真正需要创造力的部分。
从「有趣实验」到「不可或缺的工具」#
Zach 最初的评测是谨慎乐观但最终持怀疑态度的。那种怀疑已经被日常使用彻底推翻了。
他的结论是:2026 年的 Codex 已经成为生产级基础设施,从根本上改变了他构建软件的方式。改进幅度大到他无法想象回到没有 Codex 的工作流。
这不只是一个工具的进化故事。它更像是一面镜子,映照出整个 AI 编程领域的加速度。一年前还是「研究预览」的东西,现在已经变成了「不可或缺」。
如果你还在观望,Zach 的建议是:别等了。今天存在的 Codex 和一年前他评测的那个,已经是完全不同的工具了。而且从改进的轨迹来看,未来只会更好。
参考来源:OpenAI Codex Review 2026 — Updated from Daily Use by Zach Proser