<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GPT-5.1-Codex-Max on Codexer</title><link>https://codexer.com/tags/gpt-5.1-codex-max/</link><description>Recent content in GPT-5.1-Codex-Max on Codexer</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Wed, 20 May 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://codexer.com/tags/gpt-5.1-codex-max/index.xml" rel="self" type="application/rss+xml"/><item><title>Cursor 团队揭秘：如何驯服 Codex 模型打造最强编程 Agent</title><link>https://codexer.com/posts/2026-05-20-codex-agent-harness-optimization/</link><pubDate>Wed, 20 May 2026 09:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-05-20-codex-agent-harness-optimization/</guid><description>&lt;h2 id="当模型遇上产品光有智商不够"&gt;当模型遇上产品，光有智商不够&lt;/h2&gt;
&lt;p&gt;你拿到了一个强大的编程模型，把它接入你的 IDE，然后满怀期待地点击 &amp;ldquo;Run Agent&amp;rdquo;。&lt;/p&gt;
&lt;p&gt;结果呢？它要么呆在那里等你确认每一步操作，要么自顾自地写一堆 shell 脚本把你的项目搞得一团糟，又或者在中途突然 &amp;ldquo;失忆&amp;rdquo;，忘记了自己刚才在干什么。&lt;/p&gt;
&lt;p&gt;这不是模型不够聪明，而是它不够 &amp;ldquo;懂&amp;rdquo; 你的产品。&lt;/p&gt;
&lt;p&gt;最近，Cursor 团队发布了一篇技术博客，详细分享了他们如何为 OpenAI 最新的 Codex 模型（GPT-5.1-Codex-Max）定制 Agent 框架。这篇文章的价值不在于 Cursor 有多厉害，而在于它揭示了一个被很多人忽略的事实：&lt;strong&gt;把一个强大的模型变成一个好用的 Agent，中间隔着大量的工程打磨&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;今天我们就来拆解 Cursor 的实战经验，看看他们到底做了哪些事情。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="核心挑战每个模型都有自己的-脾气"&gt;核心挑战：每个模型都有自己的 &amp;ldquo;脾气&amp;rdquo;&lt;/h2&gt;
&lt;p&gt;Cursor 支持所有主流的编程模型，从 Claude 到 GPT 再到 Gemini。但每个模型的训练方式不同，导致它们在实际使用中表现出截然不同的偏好和行为模式。&lt;/p&gt;
&lt;p&gt;Codex 模型是 OpenAI 基于 GPT-5 系列专门为 Agent 编程场景训练的版本。它在训练过程中接触到的工具和指令，和 Cursor 提供的环境有很大差异。Cursor 的工作就是弥合这个差距，让模型在 Cursor 的环境中也能发挥最佳水平。&lt;/p&gt;
&lt;p&gt;他们用内部的评测套件 Cursor Bench 来衡量每个模型的表现，关注三个维度：任务成功率、工具调用质量、以及用户的实际采纳率。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第一招让工具更像-shell"&gt;第一招：让工具更像 shell&lt;/h2&gt;
&lt;p&gt;Codex CLI 的训练环境是以 shell 为核心的。模型在训练时学到的是：用 &lt;code&gt;rg&lt;/code&gt;（ripgrep）搜索文件，用 &lt;code&gt;cat&lt;/code&gt; 读取内容，用 shell 脚本做编辑。&lt;/p&gt;
&lt;p&gt;但 Cursor 提供的是结构化的工具调用（read_file、edit_file 等）。这就产生了一个冲突：模型更习惯用 shell，但 Cursor 的工具更安全、体验更好。&lt;/p&gt;</description></item></channel></rss>