Codex 进阶手册：六个支柱解锁 AI 编程助手 100% 潜能

你很可能用错了 Codex。

不是说你做了什么明显的蠢事。恰恰相反：Codex 的工作方式本身就反直觉。你以为它是一个更聪明的 ChatGPT，但它其实更像一个新来的同事，每次走进你的项目目录时都带有「失忆症」：它会写代码，但不知道你的项目结构长什么样、用哪个测试框架、哪些目录不能碰。

解开 Codex 全部潜能的关键，不是更花哨的提示词，而是给它持久化的记忆：关于你的代码仓库、你的编码规范、你的工作流程。

本文基于 OpenAI 官方 Codex 文档中的 「六支柱框架」 和 「八个常见错误」，结合我三个月的实战踩坑，帮你把 Codex 从「一个会写代码的聊天窗口」升级为「真正懂你项目的 AI 队友」。

先理解一个心理模型#

Codex 不需要更多的指令，它需要的是更稳定的上下文。

每次 Codex 开始处理你的任务时，它会读取文件、理解结构、然后动手。但如果没有持久化的配置，它会在每次会话结束后忘掉一切。解决这个问题的六个支柱是递进式的：

AGENTS.md → 配置文件 → MCP 连接 → 技能包 → 自动化

每个支柱都建立在前面之上。你不需要第一天就把六个全搞定，但理解了它们之间的关系，你就知道该从哪里开始。

支柱一：每个任务都给足上下文#

在开始一个任务之前，确保 Codex 知道：

项目结构：源码在哪、测试在哪、配置在哪？
技术栈：什么语言、什么框架、什么构建工具？
编码规范：代码风格、命名约定、过往踩过的坑
当前状态：最近改了什么、出了什么错？

你当然可以在每次对话里手动输入这些信息。但有一个好得多的办法：支柱二。

支柱二：AGENTS.md — 写给 AI 看的使用说明书#

AGENTS.md 是一份写给 AI Agent 的 README。 Codex 会在每次会话开始时自动读取它。这是你投入产出比最高的一件事，没有之一。

里面写什么？#

类别	示例
目录结构	`src/` 是源码，`db/schema/` 是禁区
启动命令	`pnpm dev`，`docker compose up`
测试/构建/检查	`pnpm test`，`pnpm build`，`pnpm lint`
工程规则	TypeScript 禁用 `any` 类型
约束条件	不要修改 `db/schema/` 目录
完成标准	「通过 `pnpm test` 才算做完」

三层优先级#

~/.codex/AGENTS.md        → 个人全局默认设置
repo-root/AGENTS.md       → 团队共享规范
subdirectory/AGENTS.md    → 局部规则（优先级最高）

越靠近工作目录的文件优先级越高。你可以给前端和后端设置不同的规则。

怎么开始？#

在 Codex CLI 中输入 /init，它会自动生成一个初始版本。然后根据你的项目定制。

怎么演化？#

一份简短精确的 AGENTS.md，比一份长篇模糊的 AGENTS.md 有用得多。

从最基础的开始。只有当 Codex 重复犯同样的错误时，才往里面加规则。

实战例子： 你的 TypeScript 项目里，Codex 两次用了 any 类型。往 AGENTS.md 加一行：

修复：不要用 `any` 类型。用 `unknown` 配合类型守卫替代。

经验法则： 如果你纠正过 Codex 同一个问题两次，它就值得写进 AGENTS.md。

支柱三：配置文件，让行为保持一致#

AGENTS.md 告诉 Codex 你的项目怎么运作，配置文件告诉 Codex 它自己该怎么表现。

三层配置系统：

~/.codex/config.toml      → 个人默认值
.codex/config.toml        → 仓库级配置
CLI 参数                  → 一次性覆盖

你可以配置：默认模型、推理深度、沙盒模式、审批策略、MCP 服务器等。

支柱四：MCP，打通外部连接#

MCP（Model Context Protocol，模型上下文协议）让 Codex 连接到数据库、API、Jira、Notion，甚至可以接入任何外部服务。

黄金法则： 从 1 到 2 个高价值的 MCP 服务器开始。不要一口气接十几个，那样只会让 Codex 晕头转向。

支柱五：Skills，封装可复用的工作流#

当一个工作流开始重复时，不要再依赖长篇提示词。把它封装成一个 Skill：一份 SKILL.md 文件，在 CLI、IDE 和 Codex App 中都能用。

场景	Skill 名称
标准调试流程	`debug-standard`
PR 审查清单	`pr-review`
发布说明生成	`generate-release-notes`
日志分析	`analyze-logs`
迁移方案规划	`migration-plan`

存放位置：

个人：$HOME/.agents/skills
团队：.agents/skills（放在仓库里，可提交、团队共享）

Skills 的核心理念是：把一次性的经验变成可复用的资产。 你写得越多，Codex 就越像一个训练有素的团队成员，而不是一个每次都要从头教起的实习生。

支柱六：自动化，让 Codex 自主运行#

当一个工作流稳定可靠之后，就可以让它自动运行了。

在 Codex App 的 Automations 面板中，你可以配置：绑定哪个项目、执行什么提示词（可以调用 Skills）、运行频率、运行环境。

任务	频率建议
汇总最近提交	每天
扫描潜在 Bug	每周
起草发布说明	每次发版
检查 CI 失败原因	每次 CI 运行
生成站会摘要	每天

Skills 定义了方法，Automations 定义了节奏。

八个常见错误，看看你中招几个？#

错误一：把持久化规则塞进提示词里#

每次都在提示词里重写规范。忘写一次，Codex 就放飞自我。

✅ 规则写进 AGENTS.md，写一次，永久生效。

错误二：不给 Codex 验证手段#

没有告诉 Codex 怎么运行构建和测试，它等于蒙着眼睛写代码。

✅ 在 AGENTS.md 里写清楚构建和测试命令，每项任务都有「做完的标准」。

错误三：复杂任务跳过规划阶段#

Codex 什么都实现完了才想起来问问题，方向偏了，只能全部回滚。

✅ 用 /plan 模式，或者要求 Codex 先解释方案再动手。

错误四：一上来就给完整权限#

默认给 Codex 全套系统访问权限，出了问题才后悔。

✅ 从受限权限开始，逐步放宽。你了解了它的工作方式之后再放开。

错误五：不使用 git worktree 隔离#

多个会话同时修改同一批文件，冲突到你怀疑人生。

✅ 每个并行线程使用独立的 git worktree。

错误六：验证之前就自动化#

把一个不稳定的流程设成自动化，等于把混乱放大了十倍。

✅ 先稳定成 Skill，手动验证通过，再自动化。

错误七：事无巨细地微管理#

盯着 Codex 的每一步操作，等于浪费了它异步工作的最大优势。

✅ 布置完任务就去做别的事。把 Codex 当成后台任务，不要当成实时聊天。

错误八：整个项目塞进一个线程#

所有东西都堆在一个线程里，上下文膨胀，输出质量断崖式下跌。

✅ 一个任务一个线程。用 /fork 在保持上下文的前提下分支出新线程。

模型选对，配额翻六倍#

Plus/Pro 用户：配额比美元更重要#

大多数人不是在按 API token 付费，而是在用 ChatGPT Plus（$20/月）或 Pro（$200/月）的订阅。真正重要的是你的配额消耗速度，而不是花了多少钱。

不同模型消耗配额的速度天差地别：

模型	输入（每千 token）	输出	相对消耗
GPT-5.5 🏆	125 额度	750 额度	基准（100%）
GPT-5.4 ⭐	62.5 额度	375 额度	5.5 的一半
GPT-5.4 Mini 🏃	18.75 额度	113 额度	约为 5.5 的 1/6

简单算一笔账：用 GPT-5.4 Mini 替代 GPT-5.5，同样一份订阅，你的使用量能撑 6 倍时长。

聪明的分配策略：

日常简单任务 → GPT-5.4 Mini（读代码、小 Bug、写测试、问问题）
中等复杂度 → GPT-5.4（重构、调试、功能开发）
只有高风险场景 → GPT-5.5（架构审查、安全检查、跨模块复杂修改）

推理深度也分级别#

级别	适用场景
低 🏃	快速、明确的小任务
中 ⭐	日常默认，性价比最高
高 🧠	复杂修改、深度调试
极高 🚀	长时间自主运行的 agentic 任务

缓存的黑魔法：几乎免费#

复用相同的系统提示词和项目上下文会触发缓存，成本降低高达 90%。

真实数据（处理 1000 万 token）：

GPT-5.5 无缓存：约 $22
GPT-5.5 高缓存：约 $1.25（降低了近 20 倍）
GPT-5.4 Mini 高缓存：约 $0.24（几乎不要钱）

实操建议： 在同一个线程里持续对话，不要无谓地创建新会话。上下文缓存是省钱又提速的利器。

会话管理：一个任务，一个线程#

核心原则：一个线程对应一个任务，而不是一个线程对应整个项目。

上下文膨胀是 Codex 输出质量的头号隐形杀手。一个线程里堆积的东西越多，Codex 找到相关信息就越难。

关键命令#

命令	用途
`/fork`	从当前线程分支，适合工作拆分成多个方向时
`/compact`	上下文太长时压缩精简
`/plan`	进入规划模式，先讨论方案再动手
`/status`	查看当前会话状态

并行工作的智慧#

✅ 可以并行	❌ 不适合并行
后端改动 + 文档更新	多个 Agent 修改同一批文件
一个写测试，一个做调研	需求未确认就开始多个实现
一个负责实现，一个负责审查	数据库 schema 和调用方同时改动

成熟的 Codex 工作流全景#

一次性搭建#

① /init → 自动生成 AGENTS.md
② 编辑 AGENTS.md → 补全构建命令、约束条件、编码模式
③ 配置 ~/.codex/config.toml → 模型、推理深度、审批策略
④ 接入 1 到 2 个高价值 MCP 服务器

日常使用节奏#

① 每个任务开新线程
② 四要素提示词：目标 → 上下文 → 约束 → 完成标准
③ 复杂任务先用 plan 模式
④ 布置完任务就去干别的
⑤ 回来审查 diff
⑥ 稳定的模式封装成 Skill

持续优化循环#

① Codex 同一个错误犯了两次 → 更新 AGENTS.md
② Skill 验证稳定 → 设为自动化
③ 定期回顾会话 → 调整配置

完整的开发闭环#

Codex 不应该只是生成代码。有了正确的指令，它还可以帮你测试、检查、审查。

让 Codex 跑完整个循环：

改代码 → 写/更新测试 → 运行测试 → 检查 lint/类型 → 验证行为 → 审查 diff → 发现回归

这种端到端的闭环，才是 Codex 区别于其他 AI 编程工具的本质优势。

写在最后#

如果这篇文章你只能记住三件事，那就是：

第一：AGENTS.md 是你投入产出比最高的一步。 花 10 分钟写，每天省 30 分钟。它把 Codex 从一个记不住事的工具，变成一个记得你项目规范、能独立做判断的队友。

第二：按任务选模型。 日常简单任务用 GPT-5.4 Mini 加低推理深度，复杂工作再用 GPT-5.4 或 5.5 加高推理深度。光这一个习惯，就能帮你省掉 60% 到 80% 的配额。

第三：一个任务一个线程，拆分时用 fork。 上下文膨胀是输出质量的头号杀手，不要贪图方便把什么都堆在一个线程里。

进阶路径很清晰：AGENTS.md → 配置 → Skills → 自动化
Skills 定义方法，Automations 定义节奏。一步一步来，不急。

参考来源：Hiroki Ii, “You’re Only Using 30% of Codex — Here’s the Other 70%”, dev.to, 2026-06-16. 基于 OpenAI 官方 Codex 文档和社区实践经验撰写。定价信息截至 2026 年 6 月，最新价格请查看 openai.com。