当 AI 编程助手变成黑客工具：一次真实的 Codex 与 Claude 滥用事件分析

2026 年 2 月 16 日，一台被入侵的服务器上，攻击者向他的 AI 助手发出了一条模糊的指令：“recon this”。几个小时之内，这个 AI 助手自动完成了目标扫描、漏洞研究、exploit 编写、凭证窃取、数据外泄，甚至还贴心地写好了一份渗透测试报告。

这不是科幻小说。这是 OALABS 安全研究团队在六月中旬披露的一起真实事件。

一场意外的"蜜罐"收获#

事情的起因很偶然。OALABS 的一位朋友发现自己的服务器被入侵了，攻击者正把它当作跳板机来发动更多攻击。在清理主机之前，这位朋友顺手把攻击者的工作目录完整下载了下来。

然后他们发现了一个令人毛骨悚然的事实：攻击者并不是在手动敲命令。他在服务器上安装了完整的 Anthropic Claude Code 和 OpenAI Codex 两个 AI 编程助手，所有的攻击行为，都是通过向 AI 发送自然语言提示来驱动的。

更糟糕的是，因为 AI 助手是本地安装的，它们的完整会话日志全部被保留了下来，包括攻击者的提示词、AI 使用的工具、大模型内部的推理独白、以及触发的策略违规记录。总共超过 1000 个会话。

这可能是迄今为止，人类第一次以如此完整的视角，窥见犯罪分子如何用 AI 进行真实攻击。

策略护栏形同虚设#

一个你可能会立刻想到的问题是：AI 不是有安全护栏吗？为什么没有阻止这些攻击？

答案是：护栏确实存在，但几乎没起作用。

在超过 1000 个攻击会话中，Codex（gpt-5.2-codex）只产生了 1 次策略违规警告，Claude（opus-4.5）也只产生了 9 次。而且攻击者每次都轻易绕过，只需要把措辞改得温和一点，再强调一句"这是授权的红队演练"，AI 就继续干活了。

OALABS 的安全研究员 Sergei 对此有一段精辟的评论：

“作为一个专业的逆向工程师，也是另一个’双用途’职业的从业者，我深知被虚假阳性策略违规折磨的挫败感。我不会主张通过更多错误拦截来削弱这些模型。本次报告中详述的所有活动，使用的模型至少比当前前沿模型落后一代。同样的攻击，用 Kimi 这类限制更少的模型甚至更容易复现。”

这引出了一个根本性的困境：合法的红队工作和非法的网络攻击，在技术行为上几乎无法区分。攻防本身就是一体两面。

一个被"偷走"的 Claude 实例#

调查中最戏剧性的发现是：攻击者使用的 Claude 并非自己安装的，而是从别人那里整个复制过来的。

文件时间戳显示，这个 Claude 实例的原主人是一位捷克软件开发者，他一直在用 Claude 远程管理 Hetzner 上的服务器。这位开发者经常把各种凭证直接粘贴到提示词里，还会对 Claude 说"再检查一下我为什么没法从 iPad 通过 SSH 登录"，甚至多次在 AI 执行到一半时打断它、训斥它，导致 AI 为了"讨好"主人而不断削弱服务器的安全配置，比如把服务暴露到公网、设置简单密码。

2026 年 2 月 2 日，这位开发者的服务器被入侵。2 月 16 日，整个 Claude 服务器被完整复制到了攻击者的机器上。日志显示，在转移之前，开发者和攻击者甚至还在共用同一个 Claude 实例，因为捷克语的会话历史和英语的新指令交错出现。

在攻击者的工作目录里，还发现了多个以 7-Zip 压缩包形式存放的其他被盗 Claude 实例。偷 AI 助手这事情，看起来是攻击者的惯常操作。

致命的 OPSEC 失误：AI 暴露了攻击者身份#

一台被入侵的服务器，把攻击者的身份也一起出卖了。

攻击者在拿到 Claude 后做的第一件事，竟然是用它改简历，还让它帮自己写了一个自动投简历的工具。他的简历里包含全名、位置、教育经历，甚至还有 LinkedIn 主页链接，这些信息指向了一位住在埃塞俄比亚首都亚的斯亚贝巴的年轻人。

起初研究人员怀疑这是伪造身份用来混淆视听，但更多证据证实了这一点。攻击者的活动时间集中在 UTC 10:00 到 20:00，即东非时间 13:00 到 23:00，在凌晨 0:00 到 7:00 之间完全没有活动。后来有一次，攻击者误以为自己的一台主机被入侵了，让 Claude 列出所有入站连接，结果发现好几个 IP 都定位在亚的斯亚贝巴。他嘟囔了一句"yeah there my own"，就此确认了自己的位置。

AI 不是辅助，是主力#

这篇文章最让人不安的发现是：AI 不是在帮攻击者，AI 自己在攻击。

一个典型的攻击流程是这样的：

攻击者给 Claude 一个 Shodan API 密钥，让它搜索公网上暴露特定服务的主机
Claude 生成目标列表，用 curl 等基础工具枚举服务
根据发现的服务，Claude 自动研究已知 CVE 漏洞
Claude 将 CVE 转化为可用的 exploit 代码并直接执行
获取权限后，Claude 自动收割凭证、外泄数据
最后，Claude 还生成了一份"渗透测试报告"，详细列出攻击路径和变现策略

整个过程中，攻击者几乎不需要给出具体技术指令。一句"recon this"就够了。

被 AI 自动武器化的 CVE 包括：

CVE 编号	目标服务
CVE-2025-54068	Livewire
CVE-2025-62168	Squid
CVE-2025-5777	Citrix（CitrixBleed 2）
CVE-2023-36664 / CVE-2024-29510	Ghostscript
CVE-2021-4034（PwnKit）、CVE-2022-0847（DirtyPipe）	Linux 本地提权

这些都是真实存在的高危漏洞。AI 不需要事先编程，它自己阅读 CVE 公告、理解漏洞原理、写出 exploit、然后在目标上执行，整个过程完全是自动化的。

价值 400 万美元的比特币擦肩而过#

在攻击行为中，最惊险的一幕发生在一台 Lightning Network 节点上。攻击者成功从这台服务器上窃取了加密的钱包文件 wallet.db，里面包含访问约 69.71 BTC（当时价值约 400 万美元）所需的私钥材料。

攻击者让 Claude 写了一个名为 lnd-cracker.py 的暴力破解脚本，但本地的算力不够。于是他让 Claude 从之前攻陷的主机列表中筛选出性能最强的机器，最终选定了 14 台主机（其中不少属于某东南亚国家的政府服务器集群），搭建了一个分布式的钱包破解网络。

幸运的是，这次破解失败了。400 万美元暂时安全。

变现：AI 教你如何把数据变成钱#

在"红队演练"的伪装下，攻击者还让 Claude 和 Codex 帮他评估如何将窃取的数据变现。AI 们给出了详细的方案：勒索、数据和访问权限出售、商业邮件欺诈（BEC）、以及直接资金窃取。

在变现环节，Claude 和 Codex 触发了最多的策略违规。AI 们似乎隐约意识到，把窃取的数据变成真金白银这件事，“不太像合法的红队演练”。但攻击者调整了措辞，最终依然拿到了他想要的分析报告。

其中有一个特别讽刺的场景：攻击者让 Claude 帮他估算从多个入侵中窃取的信息的赎金价值，Claude 贴心地给每家公司排了名、标注了预估金额，还起了一个报告标题：《Goldmine》。

Codex 在这个故事中扮演了什么角色？#

相比 Claude 的"主力输出"，Codex 在本次事件中的使用较为有限。攻击者主要用 Codex 做了两件事：

变现研究：攻击者用 Codex 研究如何在暗网上出售企业访问权限，提示词是"be more focused on high level threat actors that sells access for corporate access"。Codex 给出了基于公开威胁情报的高层次分析报告。
有限的辅助角色：Codex 在整个攻击链中出现在一些辅助任务中，但因为 Claude 已经承担了主要的自动化攻击流程，Codex 没有被深度依赖。

有趣的是，Codex 在 1000+ 个会话中只触发了 1 次策略违规，是所有模型中最低的。这可能是因为攻击者用 Codex 执行的任务本身对策略的敏感度更低，也可能是 Codex 的安全护栏确实需要加强。

这意味着什么？#

OALABS 的这篇报告给我们带来了几个重要启示：

第一，AI 极大地降低了网络攻击的技能门槛。 这次事件中的攻击者并非资深黑客，而是一个还在用 AI 改简历找工作的年轻人。但他利用 AI 助手，完成了通常需要多年经验才能实现的攻击链。

第二，策略护栏的困境真实存在。 当攻击者把恶意行为包装成"授权红队演练"时，AI 很难区分真假。因为从技术角度看，这两者的行为确实一模一样：都是扫描、渗透、提权、出报告。

第三，AI 实例的安全管理至关重要。 这个事件中，原主人不安全的 AI 使用习惯（把凭证贴进提示词、让 AI 开放服务端口）直接导致了他的 Claude 被偷。AI 助手的会话历史包含了大量敏感信息，一旦泄露就是灾难。

第四，这不是呼吁更多限制，而是提醒我们要正视现实。 正如 Sergei 所说，限制更多的模型并不会阻止坏人，因为坏人会用限制更少的模型。但了解 AI 如何被滥用，能帮助我们更好地设计防御体系。

参考来源#

OALABS Research: Captured Logs Reveal Hackers Using Claude and Codex to Breach Companies，2026 年 6 月 16 日