评测 :: Codexer

把 Claude Code 和 Codex 分别放进容器，给它们一百条基线数据和优化目标，看它们如何独立分析失败模式、跑自建评测、迭代 prompt，最终交出超越基线的方案。两种 AI 编码助手在「优化智能体」这件事上，展现出了令人意外的工程直觉和策略差异。

Posts for: #评测