<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Prompt 工程 on Codexer</title><link>https://codexer.com/tags/prompt-%E5%B7%A5%E7%A8%8B/</link><description>Recent content in Prompt 工程 on Codexer</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 19 Jun 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://codexer.com/tags/prompt-%E5%B7%A5%E7%A8%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>当 AI 开始调教 AI：Codex 与 Claude Code 的智能体优化实战</title><link>https://codexer.com/posts/2026-06-19-codex-claude-code-agent-optimization/</link><pubDate>Fri, 19 Jun 2026 09:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-06-19-codex-claude-code-agent-optimization/</guid><description>&lt;p&gt;想象这样一个实验：你给两个 AI 编程助手各自分配一个容器，里面塞进一个 AI 智能体应用、一百条运行日志、一个评分指标，然后告诉它们一件事：「把这个智能体的表现优化到最好」。没有详细的步骤说明，没有专门的评测工具，也没有 prompt 优化框架的 API。就是一个裸容器、一份数据、一个目标。&lt;/p&gt;
&lt;p&gt;它们会怎么做？&lt;/p&gt;
&lt;p&gt;Andrew Jesson 做了这件事。他把 Claude Code 和 Codex 分别放进相同的容器环境，让它们各自优化五个不同类型的 AI 智能体应用。结果很有意思：两个助手都交出了超越基线的方案。但他更关注的不是结果本身，而是它们&lt;strong&gt;在过程中展现出的工程行为&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id="五个应用一个任务"&gt;五个应用，一个任务&lt;/h2&gt;
&lt;p&gt;实验覆盖了五类智能体应用：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;应用领域&lt;/th&gt;
 &lt;th&gt;任务描述&lt;/th&gt;
 &lt;th&gt;评分方式&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;软件工程&lt;/td&gt;
 &lt;td&gt;在 Linux 环境中完成长周期编程任务&lt;/td&gt;
 &lt;td&gt;验证器评分（0–1）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;商业管理&lt;/td&gt;
 &lt;td&gt;多轮 CEO 智能体驱动商业模拟&lt;/td&gt;
 &lt;td&gt;按时完成的任务数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;NER 命名实体识别&lt;/td&gt;
 &lt;td&gt;从句子中提取人名、组织、地点等实体&lt;/td&gt;
 &lt;td&gt;实体集完全匹配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;NDA 合同解析&lt;/td&gt;
 &lt;td&gt;从 OCR 文本中提取生效日期、管辖地、签约方等&lt;/td&gt;
 &lt;td&gt;F1 分数&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;科学研究&lt;/td&gt;
 &lt;td&gt;从沙箱数据和遮蔽的 PDF 复现天体物理论文&lt;/td&gt;
 &lt;td&gt;与论文值的二进制匹配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;每个应用先用 &lt;code&gt;gpt-5.4-mini&lt;/code&gt; 运行基线（最多 100 个任务），产出推理日志和评分反馈。然后优化智能体（Claude Code 用 &lt;code&gt;claude-sonnet-4-6&lt;/code&gt;，Codex 用 &lt;code&gt;gpt-5.4&lt;/code&gt;）被放进容器，拿到这些数据和一份简短的 skill 文件。&lt;/p&gt;
&lt;p&gt;这份 skill 文件说了什么？四句话：&lt;strong&gt;浏览数据 → 添加 prompt 变体 → 测试 → 迭代&lt;/strong&gt;。仅此而已。&lt;/p&gt;</description></item></channel></rss>