一个工程师的日常正在改变#

你打开终端,盯着一份刚写好的技术方案。方案不错,但要评估可行性,你得先翻三个仓库、查两个 API 文档、再跟后端同事确认一下接口设计。光这些准备工作,就够你花掉一个下午。

现在换个场景。你把方案文档丢给 Codex,十分钟后,它返回了一份可行性分析:涉及哪些服务、哪些代码路径需要改动、有什么潜在的边界情况、甚至拆好了子任务。你花二十分钟审阅,调整了两处判断,然后直接开始干。

这不是幻想。OpenAI 最近发布了一份详实的工程指南,标题叫「Building an AI-Native Engineering Team」,详细描述了 AI 编程智能体如何渗透到软件开发的每一个环节。从规划到部署,七个阶段正在被重新定义。

不只是补全,而是全流程参与#

很多人对 AI 编程的认知还停留在"自动补全代码"。确实,几年前的模型只能做到预测下一行代码,大概够用 30 秒的推理时间。

但到了 2026 年,情况完全不同了。METR 在 2025 年 8 月的测试显示,前沿模型已经能连续推理 2 小时 17 分钟,且正确率约 50%。这个数字每七个月翻一倍。

这意味着什么?AI 不再只是帮你写一个函数。它能读懂整个项目的结构,理解业务逻辑,跨文件修改代码,跑测试,看报错,自己修复,然后提交一个可以直接审查的 PR。

编程智能体的进化可以分三个阶段:

第一阶段:自动补全。模型预测下一行代码,开发者 Tab 键确认。速度快,但能力有限。

第二阶段:IDE 内对话。开发者在编辑器里跟 AI 聊天,讨论代码、调试问题、做代码探索。类似于结对编程。

第三阶段:自主代理。智能体接管整个工作流,从需求分析到代码实现到测试提交,开发者只需审阅和指导。

我们正处在第三阶段的早期。OpenAI 自己的团队已经把大量例行工作交给了 Codex,文档编写、依赖维护、特征标志清理,这些以前占工程师时间的琐事,现在几乎全自动完成。

软件开发七个环节的 AI 改造#

一、规划:从"开会讨论"到"让智能体先查"#

传统流程里,评估一个功能的可行性需要工程师翻代码、查文档、估算工期。这个过程通常涉及多轮会议,因为产品经理写的需求文档和实际代码之间往往有不小的差距。

AI 编程智能体改变了这个模式。你可以把它接到项目管理系统(通过 MCP),让它读需求文档,然后对照代码库做分析。它能自动识别:这个需求涉及哪些服务?有哪些依赖关系?哪些边界情况容易被忽略?甚至能根据历史 PR 估算工作量。

工程师的角色因此发生了转变。以前花大量时间在跨团队沟通和可行性分析上,现在智能体能把上下文直接摆到桌面上。工程师把精力集中在优先级判断、技术选型和长期规划这些需要人类智慧的地方。

二、设计:从搭脚手架到专注体验#

设计阶段最常见的痛点是脚手架代码。搭项目结构、集成设计系统、配置样式指南,这些重复劳动占据了大量时间,却对产品体验本身没有直接贡献。

编程智能体可以一次性完成这些工作。你描述想要的功能和布局,它生成项目骨架、组件代码、设计令牌,全部符合团队的编码规范。更厉害的是,它能直接把设计稿转成代码,比对无障碍标准,甚至分析用户流程中的边界情况。

以前需要几天才能完成的高保真原型,现在几个小时就能迭代好几个版本。设计师和工程师的协作重心从"怎么实现"转移到"体验好不好"。

实际案例中,Cloudwalk 的团队(包括工程师、产品经理、设计师)每天都在用 Codex 把需求文档变成可运行的代码。无论是写一个脚本、定义一条风控规则,还是搭建一个完整的微服务,都能在几分钟内交付。

三、构建:从手写每一行到审阅每一行#

构建阶段是 AI 影响最直接的地方,也是工程师感受最明显的环节。

以前,即使是一个小功能,也需要几个小时的"搬运工作":把需求翻译成代码结构、连接服务层、复制粘贴样板代码、填写配置。随着系统变大,这些摩擦不断累积。大型单体仓库里充满了历史惯例和特殊情况,工程师花在"搞清楚正确做法"的时间,有时比实现功能本身还多。

编程智能体改变了这个比例。它可以一次性生成完整的功能实现,包括数据模型、API 接口、UI 组件、测试代码和文档。遇到编译错误,它自己修;遇到测试失败,它自己调。最终产出的是一个可以直接 diff 审查的变更集,附带 PR 描述。

这个转变的核心是角色转换。智能体成了"第一遍实现者",工程师成了"审阅者和方向制定者"。你不需要再逐行翻译需求到代码,而是审阅架构选择、检查性能影响、确保安全性、验证业务逻辑。

一个有趣的实践:OpenAI 的工程师会故意让 Codex 不在本地跑测试,因为他们的 CI 要在 Mac、Linux、Windows 三个平台跑,本地跑太耗资源。与其在本地等,不如让智能体先提交 PR,让 CI 尽早开始。如果 CI 失败了,Codex 会自动看错误信息并修复。

四、测试:从被忽视到成为核心#

测试是很多团队的痛点。写测试耗时、维护测试费力,赶进度的时候测试覆盖率往往是第一个被牺牲的。

AI 在测试环节有两个杀手级能力。第一,它能根据需求文档和功能代码,生成你可能想不到的边界情况测试。工程师长时间专注某个功能后,容易产生思维盲区,而 AI 的"第二意见"经常能发现遗漏。第二,它能随着代码演进自动更新测试,避免测试变得脆弱和过时。

这里有一个关键洞察:集成测试比单元测试能提供更强的质量信号。当智能体能自主运行测试并根据结果迭代时,定义好集成测试往往是让它自驱工作的第一步。

工程师的新角色是测试策略师。你不再手写每一个测试用例,而是定义测试覆盖目标、设计对抗性测试场景、审查模型生成的测试是否有偷工减料。智能体负责"怎么测",工程师负责"测什么"和"为什么测"。

五、审查:每行代码都有人盯着#

代码审查是软件质量的最后防线,但现实中每个开发者每周要花 2 到 5 小时做审查。面对小改动,很多人选择"快速过一遍"。当判断失误时,Bug 就溜进了生产环境。

AI 代码审查的价值在于一致性和深度。它不会因为疲倦而偷懒,不会因为赶时间而跳过。更重要的是,它不只是做静态分析(模式匹配和规则检查),而是能实际执行代码、解读运行时行为、跨文件追踪逻辑。

Sansan 的团队用 Codex 审查竞态条件和数据库关系,这些是人类容易忽略的问题。Codex 还能发现硬编码的情况,甚至预判未来的可扩展性风险。

但注意,AI 审查并不能替代人类审查。它更像一个永不疲倦的初级审查者,帮你抓出明显的 Bug 和潜在问题。最终的架构判断、业务逻辑验证、可维护性评估,仍然需要有经验的工程师来做。

一个实用建议:收集团队里的"金标准 PR"(优秀的代码审查示例),作为评估不同审查工具的基准。用 PR 评论的点赞/踩来低摩擦地衡量审查质量。

六、文档:从"有空再写"到"自动生成"#

几乎每个工程团队都知道文档欠债严重,但补文档太贵了。关键知识往往只存在于某个人的脑子里,现有文档很快过时,文档冲刺的结果通常是一次性的努力,系统一变就又落伍了。

编程智能体能读代码库,自动生成功能说明、系统架构图(用 Mermaid 语法)、API 文档。更巧妙的做法是在 AGENTS.md 里加上"每次修改代码时同步更新文档"的指令,这样文档更新就成了开发流程的内置部分,而不是额外负担。

通过 SDK 编程式地调用智能体,还能把它嵌入发布流程。比如在每次发布前,让智能体审查本次提交的变更,自动生成变更摘要。文档从此不再是"有空再写"的事,而是交付流水线的自然产物。

七、部署与运维:从翻日志到一键诊断#

线上出问题的时候,工程师通常要手动翻日志、查部署记录、对比代码变更,在多个系统之间反复切换。在事故处理这种高压场景下,每一分钟都很宝贵。

如果把日志系统通过 MCP 接入编程智能体,工程师就能在一个工作流里完成整个排查。你告诉它"查一下这个端点的错误",它会结合日志数据和代码上下文,自动追踪可能的问题源头。它还能翻 git 历史,找出最近可能引入问题的代码变更。

Virgin Atlantic 就是这么用的。他们的工程师通过 Codex VS Code 扩展,结合 Azure DevOps MCP 和 Databricks MCP,在 IDE 里就能完成日志分析、问题追踪和变更审查。根本原因的发现时间大幅缩短,工程师把更多精力放在验证修复方案和提升系统可靠性上。

核心方法论:委托、审阅、拥有#

贯穿这七个环节的,是一个统一的协作框架:Delegate(委托)、Review(审阅)、Own(拥有)

  • 委托给智能体的是:重复性工作、样板代码、初稿生成、初步分析
  • 审阅智能体产出的是:架构选择、性能影响、安全性、业务逻辑正确性
  • 工程师拥有的是:系统设计、产品方向、质量标准、最终决策权

Michael Bolin(Codex CLI 开源仓库的技术负责人,前 Meta 杰出工程师)分享的工作流出奇简单:写需求文档,给 Codex 一个简单的提示词,审阅代码。没有复杂的 AI 工作流,没有精心设计的 Prompt 工程,就是清晰的思考、良好的判断和快速迭代。

他特别强调了一点:PR 的大小要控制好。以前让别人拆分大 PR 可能会引起争论,因为拆分需要额外工作。现在有了 AI,你可以直接说"把这个 PR 拆成三个",几分钟就搞定。这让代码审查的质量标准变得更容易执行。

AGENTS.md:AI 团队的「员工手册」#

如果你只从这篇文章记住一件事,那就是:AGENTS.md 是构建 AI-Native 工程团队的关键基础设施

AGENTS.md 是放在项目根目录的一个文件,用来告诉编程智能体你的团队规范和期望。它就像给 AI 新员工写的入职手册:代码风格是什么、测试要求是什么、PR 流程是什么、哪些目录不能动、遇到不确定的情况怎么办。

有了它,智能体的每次执行都会自动遵循团队规范,不需要在每个 Prompt 里重复说明。更重要的是,AGENTS.md 是可以迭代的。发现智能体做了什么不对的事?加一条规则。发现它总是遗漏某个测试场景?加一条指引。

落地建议:从哪里开始#

不需要一步到位。OpenAI 建议从这几点开始:

从定义明确的任务入手。不要一开始就让智能体处理复杂的架构重构。先从有清晰规格的功能开发、文档生成、测试编写开始。

建立 AGENTS.md。哪怕只写几条基本规则,也能显著提升智能体的输出质量。随着使用经验积累,不断补充和完善。

用 MCP 连接你的工具链。项目管理系统、CI/CD 流水线、日志平台、代码仓库,这些都可以通过 MCP 接入智能体。连接越多,智能体的能力越强。

从审阅模式开始,逐步扩大委托范围。先让智能体做初稿,你审阅修正。当你对它的能力有信心后,再逐步把更多工作委托给它。

展望:工程师的新身份#

AI-Native 不意味着工程师被替代,而是角色发生了深刻变化。从"逐行实现"到"审阅和指导",从"手动排查"到"智能诊断",从"埋头写代码"到"抬头看方向"。

真正不变的是:代码的所有权、架构的判断力、产品质量的责任,这些核心职责始终在工程师手中。AI 编程智能体是杠杆,不是替代品。它让你把有限的精力集中在真正需要人类智慧的地方。

正如 OpenAI 在指南结尾所说的:从小处开始,投资于护栏,逐步扩展智能体的职责范围。速度、一致性和开发者专注度的提升,会随着智能体能力的增长而指数级放大。


参考来源:OpenAI Developer Documentation, “Building an AI-Native Engineering Team” (https://developers.openai.com/codex/guides/build-ai-native-engineering-team)