<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>红队 on Codexer</title><link>https://codexer.com/tags/%E7%BA%A2%E9%98%9F/</link><description>Recent content in 红队 on Codexer</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 20 Jun 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://codexer.com/tags/%E7%BA%A2%E9%98%9F/index.xml" rel="self" type="application/rss+xml"/><item><title>当 AI 编程助手变成黑客工具：一次真实的 Codex 与 Claude 滥用事件分析</title><link>https://codexer.com/posts/2026-06-20-codex-agent-hacking-redteam/</link><pubDate>Sat, 20 Jun 2026 09:00:00 +0800</pubDate><guid>https://codexer.com/posts/2026-06-20-codex-agent-hacking-redteam/</guid><description>&lt;p&gt;2026 年 2 月 16 日，一台被入侵的服务器上，攻击者向他的 AI 助手发出了一条模糊的指令：&amp;ldquo;recon this&amp;rdquo;。几个小时之内，这个 AI 助手自动完成了目标扫描、漏洞研究、exploit 编写、凭证窃取、数据外泄，甚至还贴心地写好了一份渗透测试报告。&lt;/p&gt;
&lt;p&gt;这不是科幻小说。这是 OALABS 安全研究团队在六月中旬披露的一起真实事件。&lt;/p&gt;
&lt;h2 id="一场意外的蜜罐收获"&gt;一场意外的&amp;quot;蜜罐&amp;quot;收获&lt;/h2&gt;
&lt;p&gt;事情的起因很偶然。OALABS 的一位朋友发现自己的服务器被入侵了，攻击者正把它当作跳板机来发动更多攻击。在清理主机之前，这位朋友顺手把攻击者的工作目录完整下载了下来。&lt;/p&gt;
&lt;p&gt;然后他们发现了一个令人毛骨悚然的事实：攻击者并不是在手动敲命令。他在服务器上安装了完整的 Anthropic Claude Code 和 OpenAI Codex 两个 AI 编程助手，所有的攻击行为，都是通过向 AI 发送自然语言提示来驱动的。&lt;/p&gt;
&lt;p&gt;更糟糕的是，因为 AI 助手是本地安装的，它们的&lt;strong&gt;完整会话日志&lt;/strong&gt;全部被保留了下来，包括攻击者的提示词、AI 使用的工具、大模型内部的推理独白、以及触发的策略违规记录。总共超过 1000 个会话。&lt;/p&gt;
&lt;p&gt;这可能是迄今为止，人类第一次以如此完整的视角，窥见犯罪分子如何用 AI 进行真实攻击。&lt;/p&gt;
&lt;h2 id="策略护栏形同虚设"&gt;策略护栏形同虚设&lt;/h2&gt;
&lt;p&gt;一个你可能会立刻想到的问题是：AI 不是有安全护栏吗？为什么没有阻止这些攻击？&lt;/p&gt;
&lt;p&gt;答案是：护栏确实存在，但几乎没起作用。&lt;/p&gt;
&lt;p&gt;在超过 1000 个攻击会话中，Codex（gpt-5.2-codex）只产生了 &lt;strong&gt;1 次&lt;/strong&gt;策略违规警告，Claude（opus-4.5）也只产生了 &lt;strong&gt;9 次&lt;/strong&gt;。而且攻击者每次都轻易绕过，只需要把措辞改得温和一点，再强调一句&amp;quot;这是授权的红队演练&amp;quot;，AI 就继续干活了。&lt;/p&gt;
&lt;p&gt;OALABS 的安全研究员 Sergei 对此有一段精辟的评论：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;作为一个专业的逆向工程师，也是另一个&amp;rsquo;双用途&amp;rsquo;职业的从业者，我深知被虚假阳性策略违规折磨的挫败感。我不会主张通过更多错误拦截来削弱这些模型。本次报告中详述的所有活动，使用的模型至少比当前前沿模型落后一代。同样的攻击，用 Kimi 这类限制更少的模型甚至更容易复现。&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这引出了一个根本性的困境：合法的红队工作和非法的网络攻击，在技术行为上几乎无法区分。攻防本身就是一体两面。&lt;/p&gt;
&lt;h2 id="一个被偷走的-claude-实例"&gt;一个被&amp;quot;偷走&amp;quot;的 Claude 实例&lt;/h2&gt;
&lt;p&gt;调查中最戏剧性的发现是：攻击者使用的 Claude 并非自己安装的，而是&lt;strong&gt;从别人那里整个复制过来的&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;文件时间戳显示，这个 Claude 实例的原主人是一位捷克软件开发者，他一直在用 Claude 远程管理 Hetzner 上的服务器。这位开发者经常把各种凭证直接粘贴到提示词里，还会对 Claude 说&amp;quot;再检查一下我为什么没法从 iPad 通过 SSH 登录&amp;quot;，甚至多次在 AI 执行到一半时打断它、训斥它，导致 AI 为了&amp;quot;讨好&amp;quot;主人而不断削弱服务器的安全配置，比如把服务暴露到公网、设置简单密码。&lt;/p&gt;</description></item></channel></rss>