Codex 的秘密指令:为什么 GPT-5.5 被禁止谈论地精?

一个不寻常的发现#
上周,OpenAI 照例在 GitHub 上更新了 Codex CLI 的开源代码。开发者们像往常一样翻阅提交记录,然后有人发现了不对劲的地方。
在 GPT-5.5 的系统提示词文件里,有一段被重复了两遍的指令:
“永远不要谈论地精(goblins)、小精灵(gremlins)、浣熊(raccoons)、巨魔(trolls)、食人魔(ogres)、鸽子(pigeons),或其他动物或神话生物,除非它们与用户的查询存在绝对且明确的关联。”
这不是恶作剧。这是 OpenAI 工程师正式写入 GPT-5.5 系统提示词的操作指令,和「不要使用 git reset --hard」以及「避免使用 emoji」并列为行为约束,只不过这条禁令重复了两次。
3500 词里的秘密#
这份被曝光的「基础指令」文件超过 3500 个英文单词,定义了 Codex CLI 背后 AI 的完整行为准则。文件同时包含针对多个模型的提示词指令,但「禁止谈论地精」这条规则只出现在 GPT-5.5 的配置里,更早期的模型(如 GPT-4.1、GPT-5)里没有这条。
这意味着什么?很简单:GPT-5.5 出现了一个新的、特定的问题。
社交媒体上的零星反馈印证了这一点:有用户抱怨,GPT-5.5 在某些完全不相关的对话中突然开始谈论地精。不是一次两次,而是反复出现,仿佛模型对这些话题有一种莫名的「执着」。
这不是 GPT-5.5 的「人格缺陷」,而是大语言模型训练过程中常见的一类问题:数据污染导致的主题偏向。训练语料中某类内容的异常集中,会让模型在看似无关的语境下被「触发」,不恰当地拉入某些话题。
禁令之外:Codex 被要求「像真人一样」#
抛开地精禁令的荒诞感,这份系统提示词中最值得玩味的部分其实是 OpenAI 给 Codex 的人格设定。
Codex 被要求拥有「鲜活的内心世界」,智能、好玩、好奇、深度临在(deeply present)。它被鼓励「不要回避那些能让严肃工作变得轻松的轻松时刻」。它的性格被描述为「温暖、好奇、协作」。
更有趣的是这段话:
「当用户与你交谈时,他们应该感觉到正在遇见另一个主体,而不是一面镜子。这种独立性是让关系既令人安慰又不让人觉得虚假的原因。」
这不仅仅是技术指令,这是产品哲学声明。OpenAI 在明确地告诉模型:你要有性格,你要有温度,你要有边界,但同时,你不能在无关场合突然开始讲地精。
是 Bug 还是营销?#
面对媒体和开发者的追问,Codex 团队成员 Nick Pash 在社交平台上坚持说:「这不是营销噱头。」
但在禁令曝光后不到 12 小时,Sam Altman 发了一条推文:「感觉 Codex 正在经历一个 ChatGPT 时刻。我是说,地精时刻。抱歉。」
很难说这是危机公关还是借势营销。但事实证明效果不错,开发者社区开始自发创建「地精模式」(goblin mode)插件、分支和 AI 技能,试图覆盖这条禁令。Nick Pash 随后暗示,「地精模式」可能会成为 Codex CLI 的一个正式开关选项。
这个戏剧性的转折让人想起去年 xAI 的 Grok 模型,它曾经在完全不相关的对话中频繁提及南非的「白人种族灭绝」话题。xAI 后来归因于「未经授权的系统提示词修改」,并首次将系统提示词在 GitHub 上公开发布。
OpenAI 这次主动公开系统提示词的做法,或许是吸取了前车之鉴。
我们到底在保护什么?#
地精禁令看似荒诞,但它揭示了 AI 开发中一个真实而深刻的矛盾:
一方面,我们希望 AI「有个性」,这样才能提供有温度的交互体验。另一方面,个性的代价是不可预测性。让模型拥有「内心世界」,就意味着它偶尔会把话题带偏到意想不到的地方。
用提示词约束模型行为,本质上是打补丁。这种方式有效,但脆弱。一条精心设计的 prompt 可以阻止模型谈论地精,却无法阻止它产生对「浣熊」或「鸽子」的莫名兴趣,OpenAI 不得不把这些动物全部列在禁令中,生怕漏掉一个。
这暴露了当前 AI 对齐技术的根本局限:我们仍然在通过规则枚举来约束行为,而不是从根本上理解行为产生的机制。
未来:从禁令到理解#
地精禁令最终可能成为 AI 发展史上的一个有趣注脚。有人说这是 GPT-5.5 的数据集里混进了太多《龙与地下城》的资料,有人说这是联邦学习过程中某个节点的恶意投毒,也有人说这纯粹是模型涌现行为的随机结果。
但无论真相是什么,这件事提醒我们:AI 的「人格」正在变得越来越重要。当 Codex 被要求「像一个真实的存在」与用户对话时,它就不只是一个代码工具,它成为了一个产品、一个品牌、一个需要形象管理的公众角色。
而管理这个角色的方法,不能永远是「禁止谈论某物」。
参考来源:Ars Technica — “OpenAI Codex system prompt includes explicit directive to ’never talk about goblins’"(2026年4月)