AI 代理的自我进化：Codex 与 Claude Code 如何自动分析失败、优化提示词

Mon, 22 Jun 2026 09:00:00 +0800

想象这样一个场景：你有一个 AI 客服代理，它对 100 个用户问题给出了回复，其中 35 个回复被用户标记为不满意。你面前摆着两样东西，一份是包含所有对话记录的 JSONL 日志，另一份是一个简洁的任务描述：「请分析失败原因，修改提示词或切换模型，让代理的表现更好」。

你会怎么做？大概率是先翻日志找规律，尝试改几版提示词，跑几个例子看效果，不行再调。

现在，把这个任务交给一个 AI 编程代理，比如 Codex 或 Claude Code，它会怎么做？

研究员 Andrew Jesson 在 2026 年 4 月做了一组实验，结果既在意料之中，又让人重新思考一个问题：当 AI 代理开始优化 AI 代理时，那些「专业工具」还有存在的必要吗？

实验设计：100 条记录，一个指标，零专业工具

Jesson 的实验设计简单直接。他准备了五个不同的 AI 代理应用场景：

每个应用先跑一轮 baseline：用初始提示词加上 gpt-5.4-mini 模型执行 100 个不同任务，记录下每次推理的内容和对应的反馈分数。

然后，把这份数据连同一个 Markdown 技能文件丢进一个隔离容器，告诉 Codex（搭载 GPT-5.5）或 Claude Code（搭载 Claude Sonnet 4）：分析这些失败案例，创建新的提示词变体或更换模型，让指标更好。