<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>提示词工程 on Codexer</title><link>https://codexer.com/tags/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B/</link><description>Recent content in 提示词工程 on Codexer</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 01 Jun 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://codexer.com/tags/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenAI 官方秀肌肉：三个 Codex 项目背后的提示词心法</title><link>https://codexer.com/posts/2026-06-01-codex-showcase-prompt-techniques/</link><pubDate>Mon, 01 Jun 2026 09:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-06-01-codex-showcase-prompt-techniques/</guid><description>&lt;h2 id="你知道-openai-自己也在秀codex-吗"&gt;你知道 OpenAI 自己也在「秀」Codex 吗？&lt;/h2&gt;
&lt;p&gt;很多开发者用 Codex 写业务代码、修 bug、做重构，但很少有人注意到，OpenAI 官方维护了一个 Codex Showcase 项目展示区。里面放着他们自己用 Codex 构建的完整项目，每个都附带了初始提示词和构建思路。&lt;/p&gt;
&lt;p&gt;这不是普通的 demo。这些项目展示了 Codex 在不同场景下的最佳使用方式，也暴露了一些大多数用户不知道的隐藏功能。比如，你可以在 Codex 中用 &lt;code&gt;$imagegen&lt;/code&gt; 技能直接调用图像生成，或者用 &lt;code&gt;@Build&lt;/code&gt; 插件让 Codex 控制你的桌面应用。&lt;/p&gt;
&lt;p&gt;今天我们拆解其中三个项目，看看 OpenAI 自己是怎么「驾驭」Codex 的。&lt;/p&gt;
&lt;h2 id="项目一用-codex-做一个地牢探索游戏"&gt;项目一：用 Codex 做一个地牢探索游戏&lt;/h2&gt;
&lt;p&gt;OpenAI 的第一个展示项目叫 Swifty Dungeon，一个用 SwiftUI 写的第一人称地牢探索游戏。有贴图、有精灵图、有遥测数据，不是玩具级别的东西。&lt;/p&gt;
&lt;p&gt;他们给 Codex 的初始提示词是这样的：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Use $imagegen and @Build macOS apps to build a native macOS first-person dungeon crawler.&lt;/p&gt;
&lt;p&gt;First, use $imagegen to generate a screenshot/interface of the ideal app: a native SwiftUI Liquid Glass app with the playable dungeon view in the center, the character and on-screen arrow keys in the bottom area, and player status plus inventory in the right sidebar.&lt;/p&gt;</description></item><item><title>我让 Codex 优化自己的 AGENTS.md，八轮迭代后发现一个残酷真相</title><link>https://codexer.com/posts/2026-05-30-codex-agmd-self-improvement-benchmark/</link><pubDate>Sat, 30 May 2026 09:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-05-30-codex-agmd-self-improvement-benchmark/</guid><description>&lt;h2 id="听起来很好的规则为什么实测反而更差"&gt;听起来很好的规则，为什么实测反而更差？&lt;/h2&gt;
&lt;p&gt;你有没有过这样的经历？在项目的 AGENTS.md 里加了一条自认为很精妙的规则，比如&amp;quot;优先使用已有的 helper 函数，不要重复造轮子&amp;quot;，然后信心满满地让 Codex 去干活。结果发现，Agent 的表现反而变差了。&lt;/p&gt;
&lt;p&gt;这不是段子。一位独立开发者最近做了一个严谨的实验：让 Codex 用八轮迭代优化自己的 AGENTS.md，每轮都在真实的历史 PR 上跑评测。最终结果令人意外，在训练集上表现最好的那个版本，放到干净的留出集上反而出现了退步。&lt;/p&gt;
&lt;p&gt;这个实验背后的方法论和发现，对每一个正在使用 AI 编程助手的团队都有参考价值。&lt;/p&gt;
&lt;h2 id="为什么要认真对待-agentsmd"&gt;为什么要认真对待 AGENTS.md？&lt;/h2&gt;
&lt;p&gt;在 2026 年的开发工作流里，AGENTS.md 已经不是什么新鲜事物了。几乎每个使用 Codex 或 Claude Code 的团队都会维护一份这样的文件，告诉 Agent 项目的编码规范、架构约束和行为准则。&lt;/p&gt;
&lt;p&gt;但大多数人对待 AGENTS.md 的方式是这样的：某天觉得 Agent 的行为不太对劲，于是加一条规则，写得很漂亮、很有道理，提交，然后祈祷 Agent 变聪明。&lt;/p&gt;
&lt;p&gt;问题是，AGENTS.md、CLAUDE.md 这类共享指令文件不是普通的文档。它们是编码系统的运行时行为的一部分。改一行规则，就等于改了整个系统的行为逻辑。&lt;/p&gt;
&lt;p&gt;那我们能不能像对待生产代码一样对待 AGENTS.md？不是凭感觉改，而是用数据说话？&lt;/p&gt;
&lt;h2 id="实验设计让-codex-自己优化自己"&gt;实验设计：让 Codex 自己优化自己&lt;/h2&gt;
&lt;p&gt;这位开发者的实验设计相当巧妙。&lt;/p&gt;
&lt;p&gt;他给 Codex 下了一个目标：迭代优化 AGENTS.md，在基准测试上提升性能。测试用的是他自己项目 Stet.sh 的真实历史任务，一共 15 个 PR。其中 5 个用于训练（迭代调优），另外 10 个是干净的留出集（最终验证）。&lt;/p&gt;
&lt;p&gt;模型配置是 Codex + GPT-5.5，中等推理强度。评分用 GPT-5.4 做自动评审，维度包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;测试通过率&lt;/li&gt;
&lt;li&gt;等价性（Agent 的补丁是否匹配人类 PR 的意图）&lt;/li&gt;
&lt;li&gt;代码评审质量（正确性、作用域、可维护性）&lt;/li&gt;
&lt;li&gt;足迹风险（Agent 比人类 PR 多触碰了多少代码）&lt;/li&gt;
&lt;li&gt;Token 消耗和工具调用次数&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;每一轮迭代，Codex 提出一个新的 AGENTS.md 候选版本，在 5 个训练任务上跑评测，然后根据结果决定是推进还是回滚。&lt;/p&gt;</description></item></channel></rss>