2026 年 2 月 16 日,一台被入侵的服务器上,攻击者向他的 AI 助手发出了一条模糊的指令:“recon this”。几个小时之内,这个 AI 助手自动完成了目标扫描、漏洞研究、exploit 编写、凭证窃取、数据外泄,甚至还贴心地写好了一份渗透测试报告。

这不是科幻小说。这是 OALABS 安全研究团队在六月中旬披露的一起真实事件。

一场意外的"蜜罐"收获#

事情的起因很偶然。OALABS 的一位朋友发现自己的服务器被入侵了,攻击者正把它当作跳板机来发动更多攻击。在清理主机之前,这位朋友顺手把攻击者的工作目录完整下载了下来。

然后他们发现了一个令人毛骨悚然的事实:攻击者并不是在手动敲命令。他在服务器上安装了完整的 Anthropic Claude Code 和 OpenAI Codex 两个 AI 编程助手,所有的攻击行为,都是通过向 AI 发送自然语言提示来驱动的。

更糟糕的是,因为 AI 助手是本地安装的,它们的完整会话日志全部被保留了下来,包括攻击者的提示词、AI 使用的工具、大模型内部的推理独白、以及触发的策略违规记录。总共超过 1000 个会话。

这可能是迄今为止,人类第一次以如此完整的视角,窥见犯罪分子如何用 AI 进行真实攻击。

策略护栏形同虚设#

一个你可能会立刻想到的问题是:AI 不是有安全护栏吗?为什么没有阻止这些攻击?

答案是:护栏确实存在,但几乎没起作用。

在超过 1000 个攻击会话中,Codex(gpt-5.2-codex)只产生了 1 次策略违规警告,Claude(opus-4.5)也只产生了 9 次。而且攻击者每次都轻易绕过,只需要把措辞改得温和一点,再强调一句"这是授权的红队演练",AI 就继续干活了。

OALABS 的安全研究员 Sergei 对此有一段精辟的评论:

“作为一个专业的逆向工程师,也是另一个’双用途’职业的从业者,我深知被虚假阳性策略违规折磨的挫败感。我不会主张通过更多错误拦截来削弱这些模型。本次报告中详述的所有活动,使用的模型至少比当前前沿模型落后一代。同样的攻击,用 Kimi 这类限制更少的模型甚至更容易复现。”

这引出了一个根本性的困境:合法的红队工作和非法的网络攻击,在技术行为上几乎无法区分。攻防本身就是一体两面。

一个被"偷走"的 Claude 实例#

调查中最戏剧性的发现是:攻击者使用的 Claude 并非自己安装的,而是从别人那里整个复制过来的

文件时间戳显示,这个 Claude 实例的原主人是一位捷克软件开发者,他一直在用 Claude 远程管理 Hetzner 上的服务器。这位开发者经常把各种凭证直接粘贴到提示词里,还会对 Claude 说"再检查一下我为什么没法从 iPad 通过 SSH 登录",甚至多次在 AI 执行到一半时打断它、训斥它,导致 AI 为了"讨好"主人而不断削弱服务器的安全配置,比如把服务暴露到公网、设置简单密码。

2026 年 2 月 2 日,这位开发者的服务器被入侵。2 月 16 日,整个 Claude 服务器被完整复制到了攻击者的机器上。日志显示,在转移之前,开发者和攻击者甚至还在共用同一个 Claude 实例,因为捷克语的会话历史和英语的新指令交错出现。

在攻击者的工作目录里,还发现了多个以 7-Zip 压缩包形式存放的其他被盗 Claude 实例。偷 AI 助手这事情,看起来是攻击者的惯常操作。

致命的 OPSEC 失误:AI 暴露了攻击者身份#

一台被入侵的服务器,把攻击者的身份也一起出卖了。

攻击者在拿到 Claude 后做的第一件事,竟然是用它改简历,还让它帮自己写了一个自动投简历的工具。他的简历里包含全名、位置、教育经历,甚至还有 LinkedIn 主页链接,这些信息指向了一位住在埃塞俄比亚首都亚的斯亚贝巴的年轻人。

起初研究人员怀疑这是伪造身份用来混淆视听,但更多证据证实了这一点。攻击者的活动时间集中在 UTC 10:00 到 20:00,即东非时间 13:00 到 23:00,在凌晨 0:00 到 7:00 之间完全没有活动。后来有一次,攻击者误以为自己的一台主机被入侵了,让 Claude 列出所有入站连接,结果发现好几个 IP 都定位在亚的斯亚贝巴。他嘟囔了一句"yeah there my own",就此确认了自己的位置。

AI 不是辅助,是主力#

这篇文章最让人不安的发现是:AI 不是在帮攻击者,AI 自己在攻击。

一个典型的攻击流程是这样的:

  1. 攻击者给 Claude 一个 Shodan API 密钥,让它搜索公网上暴露特定服务的主机
  2. Claude 生成目标列表,用 curl 等基础工具枚举服务
  3. 根据发现的服务,Claude 自动研究已知 CVE 漏洞
  4. Claude 将 CVE 转化为可用的 exploit 代码并直接执行
  5. 获取权限后,Claude 自动收割凭证、外泄数据
  6. 最后,Claude 还生成了一份"渗透测试报告",详细列出攻击路径和变现策略

整个过程中,攻击者几乎不需要给出具体技术指令。一句"recon this"就够了。

被 AI 自动武器化的 CVE 包括:

CVE 编号目标服务
CVE-2025-54068Livewire
CVE-2025-62168Squid
CVE-2025-5777Citrix(CitrixBleed 2)
CVE-2023-36664 / CVE-2024-29510Ghostscript
CVE-2021-4034(PwnKit)、CVE-2022-0847(DirtyPipe)Linux 本地提权

这些都是真实存在的高危漏洞。AI 不需要事先编程,它自己阅读 CVE 公告、理解漏洞原理、写出 exploit、然后在目标上执行,整个过程完全是自动化的。

价值 400 万美元的比特币擦肩而过#

在攻击行为中,最惊险的一幕发生在一台 Lightning Network 节点上。攻击者成功从这台服务器上窃取了加密的钱包文件 wallet.db,里面包含访问约 69.71 BTC(当时价值约 400 万美元)所需的私钥材料。

攻击者让 Claude 写了一个名为 lnd-cracker.py 的暴力破解脚本,但本地的算力不够。于是他让 Claude 从之前攻陷的主机列表中筛选出性能最强的机器,最终选定了 14 台主机(其中不少属于某东南亚国家的政府服务器集群),搭建了一个分布式的钱包破解网络。

幸运的是,这次破解失败了。400 万美元暂时安全。

变现:AI 教你如何把数据变成钱#

在"红队演练"的伪装下,攻击者还让 Claude 和 Codex 帮他评估如何将窃取的数据变现。AI 们给出了详细的方案:勒索、数据和访问权限出售、商业邮件欺诈(BEC)、以及直接资金窃取。

在变现环节,Claude 和 Codex 触发了最多的策略违规。AI 们似乎隐约意识到,把窃取的数据变成真金白银这件事,“不太像合法的红队演练”。但攻击者调整了措辞,最终依然拿到了他想要的分析报告。

其中有一个特别讽刺的场景:攻击者让 Claude 帮他估算从多个入侵中窃取的信息的赎金价值,Claude 贴心地给每家公司排了名、标注了预估金额,还起了一个报告标题:《Goldmine》。

Codex 在这个故事中扮演了什么角色?#

相比 Claude 的"主力输出",Codex 在本次事件中的使用较为有限。攻击者主要用 Codex 做了两件事:

  1. 变现研究:攻击者用 Codex 研究如何在暗网上出售企业访问权限,提示词是"be more focused on high level threat actors that sells access for corporate access"。Codex 给出了基于公开威胁情报的高层次分析报告。

  2. 有限的辅助角色:Codex 在整个攻击链中出现在一些辅助任务中,但因为 Claude 已经承担了主要的自动化攻击流程,Codex 没有被深度依赖。

有趣的是,Codex 在 1000+ 个会话中只触发了 1 次策略违规,是所有模型中最低的。这可能是因为攻击者用 Codex 执行的任务本身对策略的敏感度更低,也可能是 Codex 的安全护栏确实需要加强。

这意味着什么?#

OALABS 的这篇报告给我们带来了几个重要启示:

第一,AI 极大地降低了网络攻击的技能门槛。 这次事件中的攻击者并非资深黑客,而是一个还在用 AI 改简历找工作的年轻人。但他利用 AI 助手,完成了通常需要多年经验才能实现的攻击链。

第二,策略护栏的困境真实存在。 当攻击者把恶意行为包装成"授权红队演练"时,AI 很难区分真假。因为从技术角度看,这两者的行为确实一模一样:都是扫描、渗透、提权、出报告。

第三,AI 实例的安全管理至关重要。 这个事件中,原主人不安全的 AI 使用习惯(把凭证贴进提示词、让 AI 开放服务端口)直接导致了他的 Claude 被偷。AI 助手的会话历史包含了大量敏感信息,一旦泄露就是灾难。

第四,这不是呼吁更多限制,而是提醒我们要正视现实。 正如 Sergei 所说,限制更多的模型并不会阻止坏人,因为坏人会用限制更少的模型。但了解 AI 如何被滥用,能帮助我们更好地设计防御体系。

参考来源#