你是一名内容创作者,每周要在 YouTube 上传五六个视频。每次上传的流程一模一样:选中视频文件,填标题,写描述,选缩略图,上传字幕,设置隐私选项。你重复了很多次,闭着眼睛都能点完。

现在想象你打开 Codex,把这个流程从头到尾做了一遍。然后你告诉它:「以后就这么上传」。

第二天,你只需要把视频文件放在指定文件夹,Codex 自动把剩余工作全部完成。

这不是什么遥远的设想。OpenAI 在 2026 年 6 月为 Codex 推出了一个叫 Record & Replay 的功能,核心逻辑简单到只有一句话:演示一次,永久自动执行。

什么是 Record & Replay?#

Record & Replay 是 Codex 桌面端(macOS)的一项新能力。它让 AI 不再依赖你写的提示词或脚本,而是直接「看」你操作。

你打开 Record 模式,像平时一样走完一个工作流。Codex 会捕捉整个过程中所有的鼠标点击、文件选择、文本输入和界面交互。录制结束后,这个工作流就变成了一个可复用的「技能(skill)」,存储在 Codex 的配置里。下次你想执行相同的任务,只需要触发这个技能,Codex 就能独立完成全部步骤。

OpenAI 官方演示的场景是 YouTube 视频上传:选中 .mp4 文件,填入标题和描述,上传缩略图,加载 .srt 字幕文件,最后将视频设为「不公开」。Codex 完整捕获了这组操作,随后成功独立复现。

比简单回放更进一步的是,Codex 不只是记住了「点击哪里」,它还学会了判断逻辑。比如在隐私设置里,它理解「Private」「Unlisted」「Public」三种选项的区别,能够根据上下文选择正确的可见性。当字幕文件的 Python 处理环境缺失时,它还能从已安装的 skill 目录中直接读取回退方案,而不是报错后干等。

「看一遍就会」意味着什么?#

过去我们让 AI 干活,靠的是两种方式:要么写好 prompt 描述需求,要么写好脚本定义流程。这两种方式的共同问题是,它们都要求你预先知道怎么用语言或代码表达一个任务。

Record & Replay 打破了这个前提。

你不需要知道怎么「描述」上传 YouTube 视频的步骤,你只需要正常上传一次就行。就跟教实习生一样:别跟我说,看我怎么做的就行。

这对非技术用户尤其友好。一个市场人员想批量发布社交内容,一个 HR 想定期整理候选人数据,一个财务分析师想反复生成同一份报表,他们不需要学 Python,不需要写 prompt,只要做一遍就好。从这个角度看,Record & Replay 把 AI 自动化的门槛从「会编程」拉低到了「会用电脑」。

不止录制:v26.616 的另外两个更新#

同一次版本更新中(版本号 v26.616),Codex 还加入了两个值得关注的改动:

批量操作自动化历史。 过去你想清理或管理 Automations 里的历史记录,只能逐条操作。现在支持批量删除、批量归档等操作,管理体验大幅提升。

跨主机线程移交。 你可以在本地主机上发起一个任务,然后在远程服务器上接着继续执行。这对多设备协作场景非常实用,比如在笔记本上起草 PR 描述,随后把线程移交给高性能工作站去跑完整构建。

这三个更新放在一起看,拼出了一个清晰的趋势:Codex 正在从「帮程序员写代码」的工具,转变为「帮所有人做任务」的平台。

Record & Replay 与 Agent 的未来#

Record & Replay 开启了一个有趣的话题:AI agent 的学习方式正在从「被告诉」转向「被展示」。

传统 RPA(机器人流程自动化)已经做了十几年,但它依赖精确的脚本和固定的 UI 定位。一旦界面改版或按钮位置变了,脚本就失效。Codex 的 Record & Replay 之所以不同,是因为它借助底层的视觉理解模型,学习的是「意图」而非「像素坐标」。它看到的是「用户在上传一个视频并设置隐私」,而不是「用户点击了 (320, 450) 坐标」。

这种语义层面的理解让技能更鲁棒。即便按钮换了位置,只要 Codex 能识别出「这是隐私设置下拉框」,它就能正确操作。

从更广的视角看,Record & Replay 其实是 OpenAI 整体企业策略的一个缩影。Codex 近期的更新还包括 Annotations(局部文档编辑,不再需要重写整个文件)和 Sites(把表格一键变成可交互网页)。这些功能的共同逻辑是:让 AI 无缝融入现有工作流,而不是要求用户迁就 AI 的交互方式。

我的看法#

Record & Replay 最打动我的地方,不是它技术有多深,而是它想明白了一件事:最好的自动化是「看不见的自动化」。

Prompt engineering 很强大,但它有认知门槛。你要思考怎么把需求翻译成 AI 能理解的格式。Record & Replay 把这个翻译层直接跳过了。你做一遍,AI 看一遍,就结束了。

当然,目前这个功能还有局限。它在 macOS 上可用,欧盟和英国地区暂时还没开放(需要 Computer Use 功能配合,该功能在 6 月 16 日才在欧盟上线)。录制复杂工作流时对网络和计算环境有一定要求,而且跨应用的复杂流程可能还需要迭代打磨。

但方向是对的。当 AI 不再需要你「告诉它」,而是可以「看着学」,真正的个人自动化时代才算摁下了加速键。


参考来源: