<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>自动化优化 on Codexer</title><link>https://codexer.com/tags/%E8%87%AA%E5%8A%A8%E5%8C%96%E4%BC%98%E5%8C%96/</link><description>Recent content in 自动化优化 on Codexer</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 22 Jun 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://codexer.com/tags/%E8%87%AA%E5%8A%A8%E5%8C%96%E4%BC%98%E5%8C%96/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 代理的自我进化：Codex 与 Claude Code 如何自动分析失败、优化提示词</title><link>https://codexer.com/posts/2026-06-22-codex-self-optimizing-agents/</link><pubDate>Mon, 22 Jun 2026 09:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-06-22-codex-self-optimizing-agents/</guid><description>&lt;p&gt;想象这样一个场景：你有一个 AI 客服代理，它对 100 个用户问题给出了回复，其中 35 个回复被用户标记为不满意。你面前摆着两样东西，一份是包含所有对话记录的 JSONL 日志，另一份是一个简洁的任务描述：「请分析失败原因，修改提示词或切换模型，让代理的表现更好」。&lt;/p&gt;
&lt;p&gt;你会怎么做？大概率是先翻日志找规律，尝试改几版提示词，跑几个例子看效果，不行再调。&lt;/p&gt;
&lt;p&gt;现在，把这个任务交给一个 AI 编程代理，比如 Codex 或 Claude Code，它会怎么做？&lt;/p&gt;
&lt;p&gt;研究员 Andrew Jesson 在 2026 年 4 月做了一组实验，结果既在意料之中，又让人重新思考一个问题：当 AI 代理开始优化 AI 代理时，那些「专业工具」还有存在的必要吗？&lt;/p&gt;
&lt;h2 id="实验设计100-条记录一个指标零专业工具"&gt;实验设计：100 条记录，一个指标，零专业工具&lt;/h2&gt;
&lt;p&gt;Jesson 的实验设计简单直接。他准备了五个不同的 AI 代理应用场景：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;应用&lt;/th&gt;
 &lt;th&gt;描述&lt;/th&gt;
 &lt;th&gt;评价指标&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;软件工程&lt;/td&gt;
 &lt;td&gt;Linux 终端代理，执行命令解决编码任务&lt;/td&gt;
 &lt;td&gt;验证器打分 (0–1)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;商业管理&lt;/td&gt;
 &lt;td&gt;多轮 CEO 代理，驱动商业模拟&lt;/td&gt;
 &lt;td&gt;按时完成任务数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;命名实体识别 (NER)&lt;/td&gt;
 &lt;td&gt;从句子中提取组织名、人名等&lt;/td&gt;
 &lt;td&gt;精确匹配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;NDA 条款提取&lt;/td&gt;
 &lt;td&gt;从 OCR 合同中提取生效日期、管辖地等&lt;/td&gt;
 &lt;td&gt;字段级匹配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;科学研究复现&lt;/td&gt;
 &lt;td&gt;代理从沙盒数据和遮罩 PDF 中复现天体物理论文&lt;/td&gt;
 &lt;td&gt;数值二元匹配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;每个应用先跑一轮 baseline：用初始提示词加上 &lt;code&gt;gpt-5.4-mini&lt;/code&gt; 模型执行 100 个不同任务，记录下每次推理的内容和对应的反馈分数。&lt;/p&gt;
&lt;p&gt;然后，把这份数据连同一个 Markdown 技能文件丢进一个隔离容器，告诉 Codex（搭载 GPT-5.5）或 Claude Code（搭载 Claude Sonnet 4）：分析这些失败案例，创建新的提示词变体或更换模型，让指标更好。&lt;/p&gt;</description></item></channel></rss>