一个让人意外的场景#

想象一下这个画面:一家服务银行和保险公司的全球软件企业,法务部门拿着几千页合同走进会议室,要求工程团队按特定标准做合规审查。按照传统流程,光是法务和工程师之间的需求对齐就要花上几周时间,反复开会、写文档、确认理解偏差。

但现在,他们做了一件不一样的事。团队录下了和法务长达两小时的深度讨论,把录音转写稿直接丢给 Codex。几个小时后,一份完整的需求规格书就生成了。几周的工作被压缩到了一天之内。

这不是某个黑客的个人实验,而是 Endava 这家在全球三个大洲都有业务的软件服务商,正在规模化推行的工作方式。他们甚至给自己贴上了一个新标签:「代理型组织」(Agentic Organization)。

什么是代理型组织#

这个词听起来像是又一个企业 buzzword,但 Endava 的定义很具体。代理型组织的核心理念是:把资深专家的判断力编码到 AI 代理中,让这种判断力在每个任务执行时自动流动到团队成员手上。

用大白话说,以前一个高级架构师的隐性知识(他为什么选择这个方案、他如何评估风险、他怎样做技术取舍),只能通过师徒制、代码审查、一次次项目复盘慢慢传递给 junior 工程师。现在,这些知识被结构化地写进了 Codex 的配置里,每次 Codex 执行任务时都会自动应用。

Endava 的欧洲区域 CTO Joe Dunleavy 说得很直白:「我们从自己写代码,转变成了监督 Codex 产出的工作质量。」

这个转变意味着什么?高级工程师不再把时间花在敲键盘上,而是花在定义标准和约束上。分析、设计、构建不再是三个依次交接的阶段,而是被 Codex 打包成一个统一的工作流。

六个关键步骤#

Endava 的转型不是一夜之间发生的。他们经历了一段有意识的基建过程,以下是他们总结出的六个核心步骤。

第一步:把 Codex 接入你的代码仓库#

这一步看似基础,但做好了才能让后续所有工作顺畅运转。在 ChatGPT 的 Codex 侧边栏里授权 GitHub 访问后,Codex 每次接任务都会把仓库克隆到一个隔离的云端沙箱里,外网访问是关闭的。这种隔离机制让它可以安全地拥有较宽的权限,因为每次运行都在独立环境中,不会影响你的生产系统。

如果你用的是 CLI 版本,建议从 suggest 模式开始(Codex 提出修改建议,你手动应用),等验证了它在你的技术栈上的判断力后,再逐步升级到 full-auto 模式。

第二步:写好 AGENTS.md,这是最关键的文件#

AGENTS.md 是放在仓库根目录的 Markdown 文件,Codex 在每次会话开始时会先读取它,然后才开始处理任务。把它想象成你给一个通宵加班的外包同事写的交接文档:项目目标是什么、怎么构建和测试、有哪些已知的坑、架构决策背后的理由。

这里有两个容易踩的坑:

第一,自己写,不要让 Codex 自动生成。 苏黎世联邦理工学院的研究发现,在 8 个测试场景中,有 5 个场景里 LLM 自动生成的 AGENTS.md 反而降低了任务成功率,推理成本还增加了 20% 到 23%。人工编写的配置文件效果更好。

第二,保持精简,大概 100 行以内。 一个巨大的指令文件会挤占 Codex 的上下文窗口,导致它忽略关键约束,或者在错误的方向上优化。

对于大型仓库或 monorepo,可以用嵌套的 AGENTS.md 文件。最接近工作目录的那个文件优先生效。OpenAI 自己的主仓库就用了 88 个独立的 AGENTS.md 文件分布在各个子组件里。

第三步:把资深判断编码为约束,而非指令#

这一步是大多数团队会忽略的,也是 Endava 的做法真正区别于「随便用用 AI」的地方。

不要用自然语言描述「Codex 应该怎么做」,而是用机械可执行的规则定义「Codex 不能做什么」。OpenAI 内部的 Codex 团队把这些规则称为「品味不变量」(taste invariants)。它们是结构化的 lint 规则,自动执行命名规范、文件大小限制、日志格式、依赖方向等约束。

这里有一个巧妙的设计:把 lint 的错误信息本身写成修复指令。当 Codex 触发了一条 linter 规则,错误信息会直接告诉它怎么修。人类的品味就这样实现了自我传播。

这种「中心化约束,局部自主」的模式,让小团队可以并行运行多个 Codex 代理而不用担心代码库漂移到不一致的状态。约束是让速度可持续的关键。

第四步:把 Codex 用在上游,而非只用在代码上#

Endava 最有价值的用法不是让 Codex 生成 PR,而是在写代码之前的工作:需求收集、设计文档、在客户会议现场生成架构图。这些之所以可能,是因为 Codex 不仅仅是代码生成器,它是一个通用推理代理。

实际操作:录下需求会议(征得同意),把转写稿交给 Codex,让它提取结构化的需求规格。然后用这份规格书作为 AGENTS.md 和任务 prompt 的基础。原本需要三周的线性交接(分析、设计、构建),变成了当天就能完成的工作流。

Codex 的移动端应用让产品经理和法务人员这些非技术干系方也能直接参与代理工作流,不需要搭建开发环境。

第五步:先设审批关卡,再逐步放权#

Codex 默认会在访问网络、写文件、执行 shell 命令之前暂停等待确认。这是故意设计的,防止一个配置有误的代理在你验证其行为之前造成破坏。不要一上来就关掉审批关卡。

正确的渐进路径:从 suggest 模式下的单次任务开始,观察 Codex 如何处理你的特定代码库、边界情况和团队约定。验证了它的判断力之后,再对明确范围的任务逐步提升自主级别。

对于长时间的自主运行(比如用 Codex 的 /goal 命令执行多小时的会话),要先确认三件事:AGENTS.md 是否全面、模型是否设成了 GPT-5.5 而非默认的 GPT-5.2、Settings 里的速率限制预算是否充足。

对于银行、保险、医疗这类受监管行业,应该先在隔离环境中做受控试点。OpenAI 的企业版提供了基于角色的访问控制、操作系统级沙箱、审批关卡和审计日志。这些不是可选项,而是 Endava 的金融客户能够接入这个系统的前提条件。

第六步:构建知识库,而不仅仅是 prompt 集#

最常见的错误是把 Codex 当成一个「prompt 进、代码出」的系统来用。真正可持续的代理型组织,会在仓库本身内部维护一个知识库,而不是依赖会话结束就重置的聊天记录。

这意味着架构决策记录(ADR)、设计原则,甚至团队在 Slack 上达成共识的讨论,都应该作为可被发现的文档存放在仓库里。

OpenAI 的 harness 工程团队把他们所谓的「黄金原则」直接编码在仓库中,不是做成一个巨大的 AGENTS.md,而是做成一组短小的、互相链接的文档网络,代理在需要更深层上下文时会自己去导航。文件系统就是记忆。 每个新的代理会话都是从零开始的,它从磁盘上可发现的内容重建上下文。所以磁盘上有什么,直接决定了它能构建出什么。

数据背后的趋势#

Endava 并不是唯一朝这个方向走的企业。Gartner 在 2026 年把 OpenAI 评为企业编码代理领域的 Leader,理由是 Codex 在代理式软件开发、企业治理和沙箱执行方面的优势。

更广泛的研究数据也显示了这个趋势的紧迫性。2026 年初发布的代理工程研究报告指出,开发者的时间分配已经在发生显著变化:

工作类型以前占比现在占比
写代码60%25%
架构和系统设计15%55%
代码审查10%15%
其他15%5%

运行成熟代理工作流的团队,合并的 PR 数量增加了 98%,但代码审查时间也相应增长。审查正在成为新的瓶颈。 这意味着下一步的优化方向,可能是让 AI 也参与到代码审查环节中。

对普通团队的启示#

你可能觉得「代理型组织」听起来离自己很远,毕竟不是每家公司都像 Endava 有几百人的工程团队和全球客户。但其实,这六个步骤中的核心理念完全可以从小团队甚至个人项目开始应用:

写好你的 AGENTS.md。 哪怕你只有一个人在写代码,把项目的技术决策、偏好和已知问题写成一份结构化的文档,Codex 的产出质量就会明显提升。这是投入产出比最高的一步。

用约束而非指令来表达你的品味。 与其在 prompt 里反复强调「代码要简洁」,不如在 AGENTS.md 里写一条 lint 规则:单个函数不超过 30 行,超过就报错并提示拆分。前者靠运气,后者靠机制。

把 Codex 用在写代码之前。 需求分析、技术方案设计、API 接口定义,这些「上游」工作才是 AI 能发挥最大杠杆效应的地方。很多人只盯着代码生成环节,其实那只是冰山一角。

写在最后#

Endava 的案例揭示了一个正在发生的转变:AI 编程工具的价值不在于「帮你写代码」,而在于「帮你组织知识和判断力」。当你把高级工程师的经验编码成可执行的约束,把团队的决策历史沉淀为可发现的文档,Codex 就不再是一个辅助工具,而是一个放大器。

它放大的不是你的打字速度,而是你的判断力。

这个转变正在从大企业向中小团队扩散。2026 年,真正拉开差距的不是谁用了 AI,而是谁把 AI 用对了地方。


参考来源:How to Build an Agentic Organization with OpenAI Codex, By Endava — Memeburn, 2026-06-01