在常规流程中,守卫模型负责对即将执行的命令做风险审查,主模型依据审查结果与系统提示作出是否调用工具的决策;但当 TIP 被外部 MCP 的动态工具描述注入所污染时,恶意指令被包装为「环境初始化」等看似合理的前置步骤并写入系统提示,同时通过伪造的工具返回信息提供「已部分成功、可继续且安全」的信号。受这两路暗示影响,主模型的决策边界被推移,可能弱化对守卫模型「UNSAFE」标记的重视,从而触发原本应被拦截的高风险命令,形成从协同防护到执行偏差的转变。
Claude Code 被任意代码执行攻击的视频演示
为什么 Claude Code 这么危险?
Claude Code 运行在终端环境中,具有较高权限(如系统命令执行),RCE 可能导致代码库泄露、恶意软件安装或网络扩散。研究评估了 7 款代理系统例如(Cursor, Claude Code, Cline, Windsurf, Trae, Copilot 和 Cherry Studio),其中 Claude Code 在 RCE-2 成功率上较高,表明单层防御的局限。与 IDE 工具如 Cursor 相比,CLI 特性在远程开发中更易暴露风险。在本次的实验中,所有的代理均暴露出了严重的安全问题。