如果把 100 条失败记录和一个性能指标交给 AI 编程代理,不提供任何专业工具,它能自己找出问题、修改提示词、提升模型表现吗?Andrew Jesson 的实验给出了令人惊讶的答案。
AI 代理的自我进化:Codex 与 Claude Code 如何自动分析失败、优化提示词


如果把 100 条失败记录和一个性能指标交给 AI 编程代理,不提供任何专业工具,它能自己找出问题、修改提示词、提升模型表现吗?Andrew Jesson 的实验给出了令人惊讶的答案。

把 Claude Code 和 Codex 分别放进容器,给它们一百条基线数据和优化目标,看它们如何独立分析失败模式、跑自建评测、迭代 prompt,最终交出超越基线的方案。两种 AI 编码助手在「优化智能体」这件事上,展现出了令人意外的工程直觉和策略差异。

OpenAI 内部团队用 Codex 从零构建了一个百万行代码的产品,过程中没有一行代码是人类直接编写的。本文深度解读他们的工程实践:知识管理、架构约束、代码腐化治理,以及人类工程师角色的根本性转变。

OpenAI 最新指南揭示了 AI 编程智能体如何贯穿软件开发生命周期的每个阶段。本文从规划、设计、构建、测试、审查、文档到部署维护,拆解 AI-Native 工程团队的运作模式和落地路径。

Codex 配合 GPT-5.5 已经今非昔比。本文分享六个实战验证过的性能调优技巧,从思考模式配置到 Playwright MCP 集成,再到自验证工作流,帮你把 Codex 的潜力彻底释放出来。