<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>OpenAI on Codexer</title><link>https://codexer.com/tags/openai/</link><description>Recent content in OpenAI on Codexer</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://codexer.com/tags/openai/index.xml" rel="self" type="application/rss+xml"/><item><title>Codex 生产力实录：一个开发者用了快一年后的真实感受</title><link>https://codexer.com/posts/2026-05-18-codex-daily-production-review/</link><pubDate>Mon, 18 May 2026 09:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-05-18-codex-daily-production-review/</guid><description>&lt;h2 id="从看起来不错到真的离不开"&gt;从「看起来不错」到「真的离不开」&lt;/h2&gt;
&lt;p&gt;2025 年 5 月，OpenAI 发布了 Codex 的研究预览版。当时很多人试了一下，觉得「嗯，有点意思」，然后就回去继续用 Cursor 或者 Copilot 了。Zachary Proser 也是其中之一。他在第一时间写了评测，态度是「谨慎乐观但总体持怀疑态度」。&lt;/p&gt;
&lt;p&gt;快一年过去了，他更新了自己的评测。结论很简单：&lt;strong&gt;之前的怀疑已经被彻底推翻了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这不是又一篇「AI 改变世界」的鸡汤文。这是一位在 WorkOS Applied AI 团队工作的工程师，每天用 Codex 处理真实的生产代码，用数据和具体场景告诉你，这个工具到底好在哪里，还有哪些地方不够好。&lt;/p&gt;
&lt;h2 id="他每天早上的工作流"&gt;他每天早上的工作流&lt;/h2&gt;
&lt;p&gt;这是整篇文章最有价值的部分。&lt;/p&gt;
&lt;p&gt;Zachary 的一天从一杯咖啡开始。但在喝咖啡之前，他会先做一件事：把当天要做的维护任务批量扔给 Codex。&lt;/p&gt;
&lt;p&gt;比如某天早上的任务清单：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;修复用户注册流程中的 TypeScript 类型错误&lt;/li&gt;
&lt;li&gt;更新 Webhook 端点以支持新的事件格式&lt;/li&gt;
&lt;li&gt;给管理后台的 React 组件加上更好的错误边界&lt;/li&gt;
&lt;li&gt;把旧的认证中间件迁移到新的会话管理系统&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些任务有一个共同特点：它们属于「已知模式的重复性工作」。代码库里已经有了类似的实现，Codex 要做的是照着已有的风格把新功能补上。&lt;/p&gt;
&lt;p&gt;以前这些事情会吃掉他 30% 到 40% 的上午时间。现在他把这些任务塞进 Codex 的队列，去喝咖啡、看消息。回来的时候，通常已经有 2 到 3 个 PR 准备好等他 review 了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;成功率从最初的 40%~60%，涨到了现在的 85%~90%。&lt;/strong&gt; 这个数字只针对「范围明确的维护性任务」。更复杂的架构性工作，他仍然会用 Cursor 或 Claude Code 来做。&lt;/p&gt;
&lt;p&gt;这就是他所说的「两层工作流」：Codex 负责 SDLC 中的体力活，专用编码工具负责需要深度思考的部分。&lt;/p&gt;
&lt;h2 id="真正变好的三件事"&gt;真正变好的三件事&lt;/h2&gt;
&lt;h3 id="稳定性和错误处理"&gt;稳定性和错误处理&lt;/h3&gt;
&lt;p&gt;2025 年的 Codex 有一个让人抓狂的问题：任务失败了，但你不知道为什么。没有报错信息，没有建议，就是静静地失败了。&lt;/p&gt;</description></item><item><title>Codex 的秘密指令：为什么 GPT-5.5 被禁止谈论地精？</title><link>https://codexer.com/posts/2026-05-14-codex-goblin-system-prompt/</link><pubDate>Thu, 14 May 2026 10:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-05-14-codex-goblin-system-prompt/</guid><description>&lt;h2 id="一个不寻常的发现"&gt;一个不寻常的发现&lt;/h2&gt;
&lt;p&gt;上周，OpenAI 照例在 GitHub 上更新了 Codex CLI 的开源代码。开发者们像往常一样翻阅提交记录，然后有人发现了不对劲的地方。&lt;/p&gt;
&lt;p&gt;在 GPT-5.5 的系统提示词文件里，有一段被重复了两遍的指令：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;永远不要谈论地精（goblins）、小精灵（gremlins）、浣熊（raccoons）、巨魔（trolls）、食人魔（ogres）、鸽子（pigeons），或其他动物或神话生物，除非它们与用户的查询存在绝对且明确的关联。&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这不是恶作剧。这是 OpenAI 工程师&lt;strong&gt;正式写入&lt;/strong&gt; GPT-5.5 系统提示词的操作指令，和「不要使用 &lt;code&gt;git reset --hard&lt;/code&gt;」以及「避免使用 emoji」并列为行为约束，只不过这条禁令重复了两次。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="3500-词里的秘密"&gt;3500 词里的秘密&lt;/h2&gt;
&lt;p&gt;这份被曝光的「基础指令」文件超过 3500 个英文单词，定义了 Codex CLI 背后 AI 的完整行为准则。文件同时包含针对多个模型的提示词指令，但「禁止谈论地精」这条规则&lt;strong&gt;只出现在 GPT-5.5 的配置里&lt;/strong&gt;，更早期的模型（如 GPT-4.1、GPT-5）里没有这条。&lt;/p&gt;
&lt;p&gt;这意味着什么？很简单：&lt;strong&gt;GPT-5.5 出现了一个新的、特定的问题。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;社交媒体上的零星反馈印证了这一点：有用户抱怨，GPT-5.5 在某些完全不相关的对话中突然开始谈论地精。不是一次两次，而是反复出现，仿佛模型对这些话题有一种莫名的「执着」。&lt;/p&gt;
&lt;p&gt;这不是 GPT-5.5 的「人格缺陷」，而是大语言模型训练过程中常见的一类问题：&lt;strong&gt;数据污染导致的主题偏向&lt;/strong&gt;。训练语料中某类内容的异常集中，会让模型在看似无关的语境下被「触发」，不恰当地拉入某些话题。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="禁令之外codex-被要求像真人一样"&gt;禁令之外：Codex 被要求「像真人一样」&lt;/h2&gt;
&lt;p&gt;抛开地精禁令的荒诞感，这份系统提示词中最值得玩味的部分其实是 OpenAI 给 Codex 的&lt;strong&gt;人格设定&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;Codex 被要求拥有「鲜活的内心世界」，智能、好玩、好奇、深度临在（deeply present）。它被鼓励「不要回避那些能让严肃工作变得轻松的轻松时刻」。它的性格被描述为「温暖、好奇、协作」。&lt;/p&gt;
&lt;p&gt;更有趣的是这段话：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;「当用户与你交谈时，他们应该感觉到正在遇见另一个主体，而不是一面镜子。这种独立性是让关系既令人安慰又不让人觉得虚假的原因。」&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这不仅仅是技术指令，这是&lt;strong&gt;产品哲学声明&lt;/strong&gt;。OpenAI 在明确地告诉模型：你要有性格，你要有温度，你要有边界，但同时，你不能在无关场合突然开始讲地精。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="是-bug-还是营销"&gt;是 Bug 还是营销？&lt;/h2&gt;
&lt;p&gt;面对媒体和开发者的追问，Codex 团队成员 Nick Pash 在社交平台上坚持说：「这不是营销噱头。」&lt;/p&gt;
&lt;p&gt;但在禁令曝光后不到 12 小时，Sam Altman 发了一条推文：「感觉 Codex 正在经历一个 ChatGPT 时刻。我是说，地精时刻。抱歉。」&lt;/p&gt;</description></item></channel></rss>