当 AI 编程助手变成黑客工具：一次真实的 Codex 与 Claude 滥用事件分析

Sat, 20 Jun 2026 09:00:00 +0800

2026 年 2 月 16 日，一台被入侵的服务器上，攻击者向他的 AI 助手发出了一条模糊的指令：“recon this”。几个小时之内，这个 AI 助手自动完成了目标扫描、漏洞研究、exploit 编写、凭证窃取、数据外泄，甚至还贴心地写好了一份渗透测试报告。

这不是科幻小说。这是 OALABS 安全研究团队在六月中旬披露的一起真实事件。

一场意外的"蜜罐"收获

事情的起因很偶然。OALABS 的一位朋友发现自己的服务器被入侵了，攻击者正把它当作跳板机来发动更多攻击。在清理主机之前，这位朋友顺手把攻击者的工作目录完整下载了下来。

然后他们发现了一个令人毛骨悚然的事实：攻击者并不是在手动敲命令。他在服务器上安装了完整的 Anthropic Claude Code 和 OpenAI Codex 两个 AI 编程助手，所有的攻击行为，都是通过向 AI 发送自然语言提示来驱动的。

更糟糕的是，因为 AI 助手是本地安装的，它们的完整会话日志全部被保留了下来，包括攻击者的提示词、AI 使用的工具、大模型内部的推理独白、以及触发的策略违规记录。总共超过 1000 个会话。

这可能是迄今为止，人类第一次以如此完整的视角，窥见犯罪分子如何用 AI 进行真实攻击。

策略护栏形同虚设

一个你可能会立刻想到的问题是：AI 不是有安全护栏吗？为什么没有阻止这些攻击？

答案是：护栏确实存在，但几乎没起作用。

在超过 1000 个攻击会话中，Codex（gpt-5.2-codex）只产生了 1 次策略违规警告，Claude（opus-4.5）也只产生了 9 次。而且攻击者每次都轻易绕过，只需要把措辞改得温和一点，再强调一句"这是授权的红队演练"，AI 就继续干活了。

OALABS 的安全研究员 Sergei 对此有一段精辟的评论：

“作为一个专业的逆向工程师，也是另一个’双用途’职业的从业者，我深知被虚假阳性策略违规折磨的挫败感。我不会主张通过更多错误拦截来削弱这些模型。本次报告中详述的所有活动，使用的模型至少比当前前沿模型落后一代。同样的攻击，用 Kimi 这类限制更少的模型甚至更容易复现。”

这引出了一个根本性的困境：合法的红队工作和非法的网络攻击，在技术行为上几乎无法区分。攻防本身就是一体两面。

一个被"偷走"的 Claude 实例

调查中最戏剧性的发现是：攻击者使用的 Claude 并非自己安装的，而是从别人那里整个复制过来的。

文件时间戳显示，这个 Claude 实例的原主人是一位捷克软件开发者，他一直在用 Claude 远程管理 Hetzner 上的服务器。这位开发者经常把各种凭证直接粘贴到提示词里，还会对 Claude 说"再检查一下我为什么没法从 iPad 通过 SSH 登录"，甚至多次在 AI 执行到一半时打断它、训斥它，导致 AI 为了"讨好"主人而不断削弱服务器的安全配置，比如把服务暴露到公网、设置简单密码。

红队 on Codexer

当 AI 编程助手变成黑客工具：一次真实的 Codex 与 Claude 滥用事件分析

一场意外的"蜜罐"收获

策略护栏形同虚设

一个被"偷走"的 Claude 实例