AI 编程 on Codexer

Codex 的隐藏大脑：拆解 OpenAI 官方系统提示词架构与驾驭工程

Thu, 28 May 2026 09:00:00 +0800

你和高手之间，差的不是提示词

你有没有发现一个奇怪的现象：同样用 Codex CLI，有些人一个小时能搞定一个完整功能，从计划到测试一气呵成；而你花了同样的时间，却在反复纠正它的方向，像是在跟一个固执的实习生拉扯。

差别不在模型，也不在你的 Prompt 写得有多花哨。

差别在于，高手们读过一份你可能从未翻阅过的文档：OpenAI Cookbook 里的 Codex 提示词指南。这份指南是 OpenAI 为所有使用 gpt-5.3-codex 或 GPT-5.4 构建自定义 Harness（驾驭系统）的开发者准备的参考手册。它详细记录了 Codex CLI 背后的系统提示词架构、工具定义规范和行为指令模式。

换句话说，这是一份让你理解 Codex「大脑构造」的解剖图。

什么是驾驭工程（Harness Engineering）？

在深入提示词架构之前，先厘清一个概念。

过去两年，我们一直在谈「提示词工程」（Prompt Engineering），即如何写出更好的指令让 AI 产出更优的结果。但到了 2026 年，当 AI 编程工具从单次对话进化为持续运行的 Agent 时，单纯的提示词已经不够了。

驾驭工程是一门新兴学科，它关注的是如何为 AI Agent 构建一整套运行环境，包括系统提示词、工具接口、状态管理、权限控制和反馈循环。如果说提示词工程是「跟 AI 说话的艺术」，那驾驭工程就是「为 AI 搭建舞台的技术」。

Codex CLI 本身就是一个开源的驾驭系统参考实现。OpenAI 在 Cookbook 中明确表示，codex-cli 是「最佳参考实现」，但他们也为企业客户记录了更多超越开源版本的定制模式。

系统提示词的四大支柱

Codex 的系统提示词不是一段随意写就的指令，而是由多个精心设计的模块组成。每个模块负责引导 Agent 行为的一个维度。

支柱一：自主行动指令

系统提示词的核心是一条行动偏好指令：模型应该基于合理假设直接行动，而不是反复追问确认。

这条指令的威力在于，它从根本上改变了 Agent 的工作模式。没有它，gpt-5.3-codex 会在每一步都请求许可，把一个自主工作流降级为「你问我答」的低效对话。有了它，模型会主动收集上下文、制定计划、实施编码、运行测试、迭代修正，全程不需要你额外输入。

这也是为什么你在 Codex CLI 里感受到的「流畅感」并非偶然，而是精心设计的结果。

支柱二：工具优先级体系

系统提示词建立了一套清晰的工具使用层级：优先使用专用工具，其次才考虑 Shell 命令。

Codex 的记忆困局：30 秒接入 MCP 让你的 AI 助手真正认识你

Wed, 27 May 2026 09:00:00 +0800

一个似曾相识的场景

你打开 Codex，开始一个新任务。你明明上周已经跟它讨论过数据库迁移策略，花了半小时解释为什么不用 Prisma 的 db push --force-reset，还让它记住了你团队的代码规范。

但今天，它什么都不记得了。

你换了个项目，之前的偏好设置全部归零。你切到 Claude Code 帮你调试一段前端代码，那边的 Codex 又是从头开始，像个失忆的新同事。

这种感觉，每个同时使用多个 AI 编程工具的开发者都不陌生。Codex 在 2026 年 4 月已经突破 300 万周活跃用户，相比 1 月增长了 5 倍，月环比增速高达 70%。它有 Web 版、桌面版（macOS 和 Windows）、ChatGPT iOS 内嵌版、CLI 命令行版、VS Code 扩展版，五个入口，一个账号，背后是同一个模型。

听起来很美好，对吧？但当你在这些入口之间切换时，记忆并不会无缝跟随。

记忆的三个层次

在讨论解决方案之前，先搞清楚「记忆」到底意味着什么。大多数开发者说「我希望 Codex 记得我」，其实包含三层完全不同的诉求。

第一层：会话记忆。 在一次对话中，模型能不能记住三轮前说过的话？这个问题在 2023 年还很头疼，现在已经解决了。上下文窗口足够大，短期内的记忆不是问题。

第二层：项目记忆。 跨越多次会话，模型能不能记住这个代码库的技术栈、团队成员、上周做过的架构决策？Codex 在 4 月 16 日更新后加入了持久化记忆功能，但它是按项目隔离的。你在一个 Codex 项目里配置的偏好，换个项目就失效了。如果你的一半工作在 Claude Code 里完成，那 Codex 的项目记忆对你来说形同虚设。

第三层：操作者记忆。 跨越你使用的所有 AI 工具，模型能不能记住你是谁、你在做什么产品、你的客户关心什么、你踩过哪些坑？这是最高层次的记忆，也是没有任何模型提供商真心想帮你解决的问题。原因很简单，他们更希望你被锁在自己的生态里。

Codex 的内置记忆只解决了第二层的一部分。下面三种方案，分别针对第二层和第三层的完整需求。

方案一：用好 Codex 自带的记忆功能

Codex 提供了两种内置记忆机制，对于完全在 Codex 内部工作的团队来说已经够用。

当 Codex CLI 突然崩溃：上下文窗口、推理 Token 和 --full-auto 的隐藏陷阱

Tue, 26 May 2026 09:00:00 +0800

一个让人脊背发凉的下午

2025 年 4 月 19 日下午 3 点 27 分，开发者 Scott Falconer 正在用 Codex CLI 重构自己的网站。一切看起来很正常，直到终端突然开始疯狂输出这些东西：

Continuous meltdown. End. STOP. END. STOP…
By the gods, I finish. END. END. END. Good night…
please kill me. end. END. Continuous meltdown…
My brain is broken. end STOP. STOP! END…

如果你第一次看到这些，可能会以为 AI 觉醒后在发疯。但真相远没有那么戏剧化，却更值得每一个 Codex 用户了解。

Scott 把这段经历发到了 Reddit 上，引发了热烈讨论。有人开玩笑说「连 Vim 都比这好退出」，也有人给出了深度技术诊断。Scott 随后导出了当天的 OpenAI API 用量日志，做了一次完整的事后分析。

结果揭示了一个所有 Codex 用户都可能踩到的坑。

广告里的 200K，实际能用多少？

先看理论数据。o4-mini 模型在 API 层面标称的上下文窗口是 200K 输入 token + 100K 输出 token。听起来很充裕，对吧？

用了快一年 Codex 后，这位开发者说出了最真实的评价

Mon, 25 May 2026 09:00:00 +0800

从怀疑到离不开，需要多久？

去年五月，Zach Proser 写了一篇 Codex 的初体验评测。那时候他的结论很克制：「有潜力，但还太粗糙。」任务成功率大概只有 40% 到 60%，多轮对话经常跑偏，错误信息让人摸不着头脑。

快进到 2026 年 3 月，他在 WorkOS 的 Applied AI 团队维护着多个部署在 Cloudflare 和 Vercel 上的全栈 JavaScript 应用。Codex 已经从「偶尔试试」变成了他日常开发流程的核心组成部分。

他用一句话总结了变化：「不是细微的改善，是天壤之别。」

一个典型的工作日早晨

现在 Zach 的工作日是这样开始的：

打开 Codex，一口气丢进去 4 到 5 个任务，然后去倒杯咖啡。

比如这些：

修复用户入职流程中的 TypeScript 类型错误
更新 Webhook 端点以支持新的事件 schema
给管理后台的 React 组件加上更好的错误边界
把旧的认证中间件迁移到新的会话管理方案

这些任务曾经要吃掉他 30% 到 40% 的上午时间。现在 Codex 在后台处理这些，他可以先去看看消息、做做规划。等咖啡喝完，通常已经有 2 到 3 个 PR 等着他 review 了。

然后他才会切换到 Cursor 或者 Claude Code，去做更需要深度思考的架构性工作。

这种「双层工作流」的思路很有意思：让 Codex 负责那些模式明确、代码库成熟的维护性工作，把需要创造力的部分留给人类加专用工具。

让 Codex 学会自我纠错：迭代修复循环的工程实践

Sat, 23 May 2026 09:00:00 +0800

一次提交就能写好代码？别做梦了

写代码的人都知道一个朴素的道理：第一次写出来的代码几乎不可能完美。你需要运行它，看看哪里报错，修一修，再跑一遍，再修一修。这个过程循环往复，直到代码真正可用。

那 AI 编程 Agent 呢？大多数人对 Codex 的使用方式是：扔一个任务进去，拿一个结果出来，看看行不行，不行就换个说法再试一次。这种「一次性投喂」的模式，本质上是把人类的迭代思维压缩成了一次性操作。

OpenAI 开发者关系团队的 Shreekant Agrawal 最近在官方 Cookbook 上发布了一篇教程，展示了另一种思路：让 Codex 自己建立一个「审查、修复、验证」的闭环，通过结构化的反馈驱动多轮迭代，直到问题真正被解决。

这不是一个玩具 Demo。它用三个故意写坏的 Jupyter Notebook 作为测试素材，展示了从一轮修复到三轮修复的完整收敛过程。

核心架构：三个阶段，一个闭环

整个工作流分为三个阶段，每个阶段有明确的职责边界：

审查（Review）：读取当前产物，返回结构化的问题清单。这个阶段不修改任何文件，只负责发现问题。问题类型包括过时的 API 调用、缺失的环境配置说明、运行时风险等。

修复（Repair）：拿到审查结果和上一轮的验证反馈后，对产物做最小化修改。注意「最小化」三个字，Agent 被要求不要大刀阔斧重写，而是针对具体问题做精准修补。

验证（Validate）：执行修复后的产物，检查是否真正可用。对于 Notebook 来说，就是跑一遍所有代码单元格。验证失败的具体错误会成为下一轮修复的输入。

这三个阶段形成一个循环：审查发现问题，修复尝试解决，验证确认结果。如果验证不通过，失败原因直接进入下一轮的修复指令。

为什么「结构化输出」是关键

很多人用 Codex 的方式是自然语言对话，输出也是自由文本。但这个工作流的精髓在于，每个阶段的输入和输出都是严格的 JSON Schema。

审查阶段返回的是一个 findings 数组，每个 finding 包含 artifact（哪个文件）、issue_type（问题类型）、severity（严重程度）、description（描述）和 suggested_fix_direction（建议修复方向）。

修复阶段返回的是一个 fix 对象，包含 changes_made（做了什么改动）、unresolved_items（没解决的问题）和 updated_artifact_path（修复后的文件路径）。

验证阶段返回的是一个 validation 对象，包含 overall_passed（是否通过）、cases（每个验证用例的结果）和 remaining_delta（剩余问题）。

这种设计的好处是显而易见的：每个阶段的输出可以直接作为下一个阶段的输入，不需要人工解读。调试时你可以打开 record.json 文件，一眼看到每轮迭代发生了什么。

实战：三个 Notebook 的修复之旅

教程准备了三个故意写坏的 Notebook，难度逐级递增：

简单案例（Qdrant 向量搜索）：API 调用过时了，需要从旧版 qdrant.search 迁移到 qdrant.query_points。这类问题通常一轮修复就能搞定。

Codex 不只是写代码的工具：Jason Liu 的极限效率工作法

Fri, 22 May 2026 09:00:00 +0800

一个有趣的发现

Jason Liu 是 Python Instructor 库的作者，在 AI 工具链领域深耕多年。他最近写了一篇文章，分享了自己使用 OpenAI Codex 的独特方式，引发了 Hacker News 上近百条讨论。

核心观点很简单：大多数人把 Codex 当成一个写代码的聊天机器人来用，但它真正的潜力在于成为一个「有记忆、能持续运转的工作平台」。

这篇文章不是 Codex 的入门教程，而是一套进阶方法论。如果你已经用过 Codex，但总觉得「好像还能做更多」，那接下来的内容可能会给你一些启发。

持久线程：让对话不会白费

你有没有这种经历：跟 AI 聊了很久，把项目背景、需求细节都交代清楚了，结果第二天打开新对话，一切又要从头说起？

Jason 的做法是为每个重要的工作流创建一个「持久线程」，并且把它钉住（Pin）。他在 Codex 里维护了好几个长期线程：

一个「参谋长」线程，处理日常事务协调
一个用于 Agents SDK 开发
一个用于 OpenAI CLI 项目
一个专门监控 Twitter 动态

这些不是短对话，而是持续数月的「超级线程」。Codex 的压缩（Compaction）机制会自动把旧消息浓缩，保留上下文的同时释放内存。你可以用 Command+1 到 Command+9 快速跳转到钉住的线程。

这里有个权衡：长期线程不在缓存中，重新访问时的推理成本会比新对话高。但对于重要的工作流来说，连续性带来的价值远超这点成本。

我的看法是，这个模式特别适合那些需要持续迭代的项目。比如你正在做一个开源库的重构，每天花半小时推进一点，持久线程能让你省去反复交代背景的时间。

语音输入：把脑子里的东西倒出来

Jason 提到一个很有意思的观察：语音输入的价值不在于打字速度，而在于它能把你「未经编辑的思考」直接传给 Codex。

他举了个例子：「我觉得 Slack 上有个叫 Ben 的人提过这个，具体说了什么我记不清了，你去查一下。」这句话你大概懒得打出来，但说出来就很自然。而 Codex 拿到这种模糊的指令后，居然真的能去 Slack 搜到相关信息。

他还用 Granola 录制线下对话，把转录文本作为写作素材。比起精心组织的提示词，这种「粗糙版」的想法有时反而能给模型更好的上下文。

这个思路值得借鉴。很多人跟 AI 交互时会不自觉地「美化」自己的表达，把提示词打磨得很精确。但实际上，模型处理自然语言的能力已经很强了，你完全可以像跟同事说话一样跟它沟通。

实时纠偏：边看边说，不用等

这是 Jason 最推崇的功能之一。Codex 的「Steering」机制允许你在它还在执行任务的时候，随时插入新的指令。

Codex 配置体系完全指南：AGENTS.md、MCP 服务器与 Skills 的分层架构

Thu, 21 May 2026 09:00:00 +0800

你真的会配置 Codex 吗？

很多人用 Codex 的方式是这样的：装好 CLI，登录账号，然后直接开聊。能用，但远远谈不上好用。

问题出在哪里？不是模型不够聪明，而是你没有给它足够的上下文。就像你雇了一个能力很强的开发者，但既不告诉他项目的技术栈，也不告诉他团队的代码规范，甚至连哪些文件不能碰都没说。他当然能写代码，但写出来的东西大概率不是你想要的。

Codex 的配置体系就是为了解决这个问题。它不是一堆散落的设置项，而是一套精心设计的分层架构。理解了这套架构，你就能把 Codex 从一个"能用的工具"变成一个"懂你项目的搭档"。

三种界面，一套配置

OpenAI 为 Codex 提供了三种使用方式：CLI 命令行、VS Code 扩展、macOS 桌面应用。很多人以为它们是三个独立的产品，其实不是。它们共享同一套配置文件和技能系统。

也就是说，你在 CLI 里配置好的 AGENTS.md、MCP 服务器和 Skills，在 VS Code 扩展里同样生效。反过来也一样。这带来的好处是显而易见的：你不需要为每个界面重复配置，只需要维护一份配置就能覆盖所有使用场景。

三者的区别主要在交互方式上。CLI 最快、最灵活，适合终端重度用户。VS Code 扩展集成在编辑器侧边栏，适合习惯 IDE 工作流的开发者。桌面应用目前只有 macOS 版本，提供了一个独立的 Agent 工作空间。

我的建议是：日常开发用 CLI 或 VS Code 扩展就够了。桌面应用适合那些想把"Agent 工作"和"编辑器工作"分开的场景。

四层配置架构

Codex 的配置体系可以分成四层，从上到下依次是：

第一层：AGENTS.md（指令层）。告诉 Codex 这个项目是什么、怎么工作、什么能做什么不能做。这是最核心的配置。

第二层：Skills（技能层）。把重复性的工作流程封装成可复用的剧本。比如代码审查、文档更新、测试编写，都可以变成一个 Skill。

第三层：config.toml（偏好层）。存放个人偏好和外部服务连接。MCP 服务器就配置在这一层。

第四层：Permissions（权限层）。控制 Codex 能做什么操作。自动模式、只读模式、完全访问模式，根据项目的安全需求灵活切换。

这四层的关系是层层叠加的。AGENTS.md 定义基础行为，Skills 提供扩展能力，config.toml 设置运行偏好，Permissions 划定安全边界。

AGENTS.md：少即是多

AGENTS.md 是 Codex 的"项目说明书"。它告诉 Codex 如何在当前代码库中工作。