当 AI 开始调教 AI：Codex 与 Claude Code 的智能体优化实战

Fri, 19 Jun 2026 09:00:00 +0800

想象这样一个实验：你给两个 AI 编程助手各自分配一个容器，里面塞进一个 AI 智能体应用、一百条运行日志、一个评分指标，然后告诉它们一件事：「把这个智能体的表现优化到最好」。没有详细的步骤说明，没有专门的评测工具，也没有 prompt 优化框架的 API。就是一个裸容器、一份数据、一个目标。

它们会怎么做？

Andrew Jesson 做了这件事。他把 Claude Code 和 Codex 分别放进相同的容器环境，让它们各自优化五个不同类型的 AI 智能体应用。结果很有意思：两个助手都交出了超越基线的方案。但他更关注的不是结果本身，而是它们在过程中展现出的工程行为。

五个应用，一个任务

实验覆盖了五类智能体应用：

每个应用先用 gpt-5.4-mini 运行基线（最多 100 个任务），产出推理日志和评分反馈。然后优化智能体（Claude Code 用 claude-sonnet-4-6，Codex 用 gpt-5.4）被放进容器，拿到这些数据和一份简短的 skill 文件。

这份 skill 文件说了什么？四句话：浏览数据 → 添加 prompt 变体 → 测试 → 迭代。仅此而已。