一位开发者让 Codex 用八轮迭代优化自己的 AGENTS.md,每轮都在真实 PR 上做评测。结果出人意料:在训练集上表现最好的版本,在干净的留出集上反而退步了。这个实验揭示了一个被大多数人忽略的事实,听起来合理的指令,不一定是好的干预。
我让 Codex 优化自己的 AGENTS.md,八轮迭代后发现一个残酷真相


一位开发者让 Codex 用八轮迭代优化自己的 AGENTS.md,每轮都在真实 PR 上做评测。结果出人意料:在训练集上表现最好的版本,在干净的留出集上反而退步了。这个实验揭示了一个被大多数人忽略的事实,听起来合理的指令,不一定是好的干预。