Posts for: #自动化评估

我让 Codex 优化自己的 AGENTS.md，八轮迭代后发现一个残酷真相

2026-05-30

#Codex #AGENTS.md #自动化评估 #GPT-5.5 #工程方法论 #提示词工程我让 Codex 优化自己的 AGENTS.md，八轮迭代后发现一个残酷真相

一位开发者让 Codex 用八轮迭代优化自己的 AGENTS.md，每轮都在真实 PR 上做评测。结果出人意料：在训练集上表现最好的版本，在干净的留出集上反而退步了。这个实验揭示了一个被大多数人忽略的事实，听起来合理的指令，不一定是好的干预。