如果把 100 条失败记录和一个性能指标交给 AI 编程代理,不提供任何专业工具,它能自己找出问题、修改提示词、提升模型表现吗?Andrew Jesson 的实验给出了令人惊讶的答案。
AI 代理的自我进化:Codex 与 Claude Code 如何自动分析失败、优化提示词


如果把 100 条失败记录和一个性能指标交给 AI 编程代理,不提供任何专业工具,它能自己找出问题、修改提示词、提升模型表现吗?Andrew Jesson 的实验给出了令人惊讶的答案。

OALABS 安全研究团队在一次蜜罐行动中,意外捕获了攻击者使用 Codex 和 Claude 进行真实网络入侵的完整日志。

把 Claude Code 和 Codex 分别放进容器,给它们一百条基线数据和优化目标,看它们如何独立分析失败模式、跑自建评测、迭代 prompt,最终交出超越基线的方案。两种 AI 编码助手在「优化智能体」这件事上,展现出了令人意外的工程直觉和策略差异。

OpenAI 内部团队用 Codex 从零构建了一个百万行代码的产品,过程中没有一行代码是人类直接编写的。本文深度解读他们的工程实践:知识管理、架构约束、代码腐化治理,以及人类工程师角色的根本性转变。

大多数开发者只发挥了 Codex 不到三分之一的潜力。本文基于 OpenAI 官方六支柱框架,结合实战经验,系统梳理从 AGENTS.md 到自动化的完整进阶路径,包含模型选择策略和八个常见误区。