OpenAI 官方秀肌肉：三个 Codex 项目背后的提示词心法

Mon, 01 Jun 2026 09:00:00 +0800

你知道 OpenAI 自己也在「秀」Codex 吗？

很多开发者用 Codex 写业务代码、修 bug、做重构，但很少有人注意到，OpenAI 官方维护了一个 Codex Showcase 项目展示区。里面放着他们自己用 Codex 构建的完整项目，每个都附带了初始提示词和构建思路。

这不是普通的 demo。这些项目展示了 Codex 在不同场景下的最佳使用方式，也暴露了一些大多数用户不知道的隐藏功能。比如，你可以在 Codex 中用 $imagegen 技能直接调用图像生成，或者用 @Build 插件让 Codex 控制你的桌面应用。

今天我们拆解其中三个项目，看看 OpenAI 自己是怎么「驾驭」Codex 的。

项目一：用 Codex 做一个地牢探索游戏

OpenAI 的第一个展示项目叫 Swifty Dungeon，一个用 SwiftUI 写的第一人称地牢探索游戏。有贴图、有精灵图、有遥测数据，不是玩具级别的东西。

他们给 Codex 的初始提示词是这样的：

Use $imagegen and @Build macOS apps to build a native macOS first-person dungeon crawler.

First, use $imagegen to generate a screenshot/interface of the ideal app: a native SwiftUI Liquid Glass app with the playable dungeon view in the center, the character and on-screen arrow keys in the bottom area, and player status plus inventory in the right sidebar.

我让 Codex 优化自己的 AGENTS.md，八轮迭代后发现一个残酷真相

Sat, 30 May 2026 09:00:00 +0800

听起来很好的规则，为什么实测反而更差？

你有没有过这样的经历？在项目的 AGENTS.md 里加了一条自认为很精妙的规则，比如"优先使用已有的 helper 函数，不要重复造轮子"，然后信心满满地让 Codex 去干活。结果发现，Agent 的表现反而变差了。

这不是段子。一位独立开发者最近做了一个严谨的实验：让 Codex 用八轮迭代优化自己的 AGENTS.md，每轮都在真实的历史 PR 上跑评测。最终结果令人意外，在训练集上表现最好的那个版本，放到干净的留出集上反而出现了退步。

这个实验背后的方法论和发现，对每一个正在使用 AI 编程助手的团队都有参考价值。

为什么要认真对待 AGENTS.md？

在 2026 年的开发工作流里，AGENTS.md 已经不是什么新鲜事物了。几乎每个使用 Codex 或 Claude Code 的团队都会维护一份这样的文件，告诉 Agent 项目的编码规范、架构约束和行为准则。

但大多数人对待 AGENTS.md 的方式是这样的：某天觉得 Agent 的行为不太对劲，于是加一条规则，写得很漂亮、很有道理，提交，然后祈祷 Agent 变聪明。

问题是，AGENTS.md、CLAUDE.md 这类共享指令文件不是普通的文档。它们是编码系统的运行时行为的一部分。改一行规则，就等于改了整个系统的行为逻辑。

那我们能不能像对待生产代码一样对待 AGENTS.md？不是凭感觉改，而是用数据说话？

实验设计：让 Codex 自己优化自己

这位开发者的实验设计相当巧妙。

他给 Codex 下了一个目标：迭代优化 AGENTS.md，在基准测试上提升性能。测试用的是他自己项目 Stet.sh 的真实历史任务，一共 15 个 PR。其中 5 个用于训练（迭代调优），另外 10 个是干净的留出集（最终验证）。

模型配置是 Codex + GPT-5.5，中等推理强度。评分用 GPT-5.4 做自动评审，维度包括：

测试通过率
等价性（Agent 的补丁是否匹配人类 PR 的意图）
代码评审质量（正确性、作用域、可维护性）
足迹风险（Agent 比人类 PR 多触碰了多少代码）
Token 消耗和工具调用次数

每一轮迭代，Codex 提出一个新的 AGENTS.md 候选版本，在 5 个训练任务上跑评测，然后根据结果决定是推进还是回滚。