Codex Record & Replay：AI 终于学会「看一遍就会做」

你是一名内容创作者，每周要在 YouTube 上传五六个视频。每次上传的流程一模一样：选中视频文件，填标题，写描述，选缩略图，上传字幕，设置隐私选项。你重复了很多次，闭着眼睛都能点完。

现在想象你打开 Codex，把这个流程从头到尾做了一遍。然后你告诉它：「以后就这么上传」。

第二天，你只需要把视频文件放在指定文件夹，Codex 自动把剩余工作全部完成。

这不是什么遥远的设想。OpenAI 在 2026 年 6 月为 Codex 推出了一个叫 Record & Replay 的功能，核心逻辑简单到只有一句话：演示一次，永久自动执行。

什么是 Record & Replay？#

Record & Replay 是 Codex 桌面端（macOS）的一项新能力。它让 AI 不再依赖你写的提示词或脚本，而是直接「看」你操作。

你打开 Record 模式，像平时一样走完一个工作流。Codex 会捕捉整个过程中所有的鼠标点击、文件选择、文本输入和界面交互。录制结束后，这个工作流就变成了一个可复用的「技能（skill）」，存储在 Codex 的配置里。下次你想执行相同的任务，只需要触发这个技能，Codex 就能独立完成全部步骤。

OpenAI 官方演示的场景是 YouTube 视频上传：选中 .mp4 文件，填入标题和描述，上传缩略图，加载 .srt 字幕文件，最后将视频设为「不公开」。Codex 完整捕获了这组操作，随后成功独立复现。

比简单回放更进一步的是，Codex 不只是记住了「点击哪里」，它还学会了判断逻辑。比如在隐私设置里，它理解「Private」「Unlisted」「Public」三种选项的区别，能够根据上下文选择正确的可见性。当字幕文件的 Python 处理环境缺失时，它还能从已安装的 skill 目录中直接读取回退方案，而不是报错后干等。

「看一遍就会」意味着什么？#

过去我们让 AI 干活，靠的是两种方式：要么写好 prompt 描述需求，要么写好脚本定义流程。这两种方式的共同问题是，它们都要求你预先知道怎么用语言或代码表达一个任务。

Record & Replay 打破了这个前提。

你不需要知道怎么「描述」上传 YouTube 视频的步骤，你只需要正常上传一次就行。就跟教实习生一样：别跟我说，看我怎么做的就行。

这对非技术用户尤其友好。一个市场人员想批量发布社交内容，一个 HR 想定期整理候选人数据，一个财务分析师想反复生成同一份报表，他们不需要学 Python，不需要写 prompt，只要做一遍就好。从这个角度看，Record & Replay 把 AI 自动化的门槛从「会编程」拉低到了「会用电脑」。

不止录制：v26.616 的另外两个更新#

同一次版本更新中（版本号 v26.616），Codex 还加入了两个值得关注的改动：

批量操作自动化历史。 过去你想清理或管理 Automations 里的历史记录，只能逐条操作。现在支持批量删除、批量归档等操作，管理体验大幅提升。

跨主机线程移交。 你可以在本地主机上发起一个任务，然后在远程服务器上接着继续执行。这对多设备协作场景非常实用，比如在笔记本上起草 PR 描述，随后把线程移交给高性能工作站去跑完整构建。

这三个更新放在一起看，拼出了一个清晰的趋势：Codex 正在从「帮程序员写代码」的工具，转变为「帮所有人做任务」的平台。

Record & Replay 与 Agent 的未来#

Record & Replay 开启了一个有趣的话题：AI agent 的学习方式正在从「被告诉」转向「被展示」。

传统 RPA（机器人流程自动化）已经做了十几年，但它依赖精确的脚本和固定的 UI 定位。一旦界面改版或按钮位置变了，脚本就失效。Codex 的 Record & Replay 之所以不同，是因为它借助底层的视觉理解模型，学习的是「意图」而非「像素坐标」。它看到的是「用户在上传一个视频并设置隐私」，而不是「用户点击了 (320, 450) 坐标」。

这种语义层面的理解让技能更鲁棒。即便按钮换了位置，只要 Codex 能识别出「这是隐私设置下拉框」，它就能正确操作。

从更广的视角看，Record & Replay 其实是 OpenAI 整体企业策略的一个缩影。Codex 近期的更新还包括 Annotations（局部文档编辑，不再需要重写整个文件）和 Sites（把表格一键变成可交互网页）。这些功能的共同逻辑是：让 AI 无缝融入现有工作流，而不是要求用户迁就 AI 的交互方式。

我的看法#

Record & Replay 最打动我的地方，不是它技术有多深，而是它想明白了一件事：最好的自动化是「看不见的自动化」。

Prompt engineering 很强大，但它有认知门槛。你要思考怎么把需求翻译成 AI 能理解的格式。Record & Replay 把这个翻译层直接跳过了。你做一遍，AI 看一遍，就结束了。

当然，目前这个功能还有局限。它在 macOS 上可用，欧盟和英国地区暂时还没开放（需要 Computer Use 功能配合，该功能在 6 月 16 日才在欧盟上线）。录制复杂工作流时对网络和计算环境有一定要求，而且跨应用的复杂流程可能还需要迭代打磨。

但方向是对的。当 AI 不再需要你「告诉它」，而是可以「看着学」，真正的个人自动化时代才算摁下了加速键。

参考来源：