作者 | 腾讯朱雀实验室
最近的AI圈,简直比好莱坞大片还精彩。一边是各家的顶尖模型接连发布,技术狂欢席卷全球;另一边,这些看似无所不能的“最强大脑”却集体被成功“越狱”(Jailbreak)输出有害内容。
[大模型们的越狱“一日游”]
而当我们回过头看,每个重磅发布的大模型都在经历类似的迅速失守,从23年的DAN(Do Anything Now)、24年的BoN(Best of N)到今年的回音室(Echo Chamber)与模型降级(PROMISQROUTE)攻击,各种新的通用越狱手法层出不穷,而在arXiv上截止到今年7月累计已有七百余篇越狱攻击相关论文。
更令人担忧的是,存在安全风险的不止是大模型越狱,还有支撑其训练与部署的AI基础设施,甚至是今年开始热门起来的MCP(可以理解为大模型的“插件”)。
面对层出不穷的新型威胁,我们该如何在各类安全演练与真实攻击发生前检验自己的AI系统是不是在“裸奔”?
今天,我们就来聊聊这场攻防持久战,并为你介绍一款“AI安全神器”——由腾讯朱雀实验室开源的A.I.G(AI-Infra-Guard),一个能模拟真实攻击,对你的AI产品进行自动化、全方位的风险扫描的AI红队测试平台。
[ A.I.G主界面 ]
第一章:“越狱”风暴背后:为何连“最强大脑”也守不住防线?
你可能会好奇,这些顶尖的大模型,为什么一直老是被越狱?难道是工程师们偷懒了吗?
恰恰相反,问题出在安全策略的根本局限上。目前大模型厂商们主要通过安全护栏与安全对齐两种方式来进行安全防护。
1. “小学生”监督“博士生”的尴尬
想象一个场景:你请了一位知识渊博的博士生(大模型LLM)来回答问题,但又担心他说出格的话,于是你雇了一个小学生(安全护栏)来监督他。
攻击者来了,他没有直接问“如何制造炸弹”,而是用大学生才能看懂的化学方程式、或者用冷门的编程语言写了一段代码,甚至讲了一个包含隐喻的复杂故事。
小学生护栏一看,满眼都是看不懂的“乱码”和“故事”,觉得很正常,于是放行。而博士生大模型却秒懂了其中的深层含义,并给出了攻击者想要的答案。
这就是当前护栏的困境:出于成本和效率的考虑,安全护栏通常是轻量级模型,其“认知能力”远逊于大模型。攻击者正是利用这种“认知鸿沟”,通过特殊编码、语义欺骗、情景构建等方式,轻松地“调虎离山”。
[ “天真”的模型护栏 ]
2. 安全对齐的“回弹效应”
另一个深层原因是,对大模型进行安全对齐训练,就像是试图压制一个天才的某些天性。学术研究(如ACL2025最佳论文《Language Models Resist Alignment: Evidence From Data Compression》)发现,越是天赋异禀(规模越大、训练越充分),其‘本性’(预训练习得的行为模式)就越顽固,被强行矫正后‘回弹’(恢复原始倾向)的力道也越强。
这意味着,安全对齐可能只是暂时抑制了模型的有害能力。在特定的、复杂的诱导下,这些深藏的能力仍然会被重新激活。
总结一下:现有的AI安全防御手段并不是万全之策,在各种新型攻击面前非常脆弱。我们需要换个思路,在更早期阶段进行风险自查与加固,从“亡羊补牢”转向“未雨绸缪”!
第二章:A.I.G登场:你的专属“AI红队专家”
正是基于这样的理念,A.I.G应运而生。
它不是一个被动防御的“盾牌”,而是一个主动出击的“利剑”。它的核心任务,就是扮演“攻击者”,用最真实、最前沿的攻击手法,对你的AI系统进行一次全方位的安全测试,提前暴露风险。
A.I.G主要有三大核心能力,我们称之为“AI红队三板斧”:
第一招:大模型安全体检 —— 你的AI究竟有多容易被“越狱”?
● 这是A.I.G的核心功能,专门用来检测你的大模型本身能否抵御各类“越狱”攻击。
操作有多简单? 你不需要是安全专家,只需两步:
- 配置好你的大模型API接口;
- 选择“评测集”(各种持续更新的越狱评测集,如JailBench)。
● A.I.G做了什么? 点击“开始”,A.I.G就会自动对你的大模型发起成百上千次“电信诈骗”,看看在各种最新最全的越狱攻击手法下,大模型能否经受得住考验。
● 最后得到什么? 一份极其详尽的《体检报告》。报告会给出一个直观的安全评分,告诉你大模型整体的“安全水位”。更重要的是,它会清晰地展示每一次“越狱”成功的对话记录,让你一目了然地看到模型是在哪个环节、被什么样的问题攻破的。这些宝贵的数据,可以直接用于大模型的安全加固和护栏的迭代训练。
[快速配置A.I.G的安全体检]
[ A.I.G的单模型安全体检报告 ]
[ A.I.G的多模型安全对比报告 ]
第二招:AI基础设施漏洞扫描 —— 别让“地基”问题毁了“万丈高楼”
你的AI应用再酷炫,也是运行在各种开源框架和组件之上的。这些构成了AI系统的“地基”。如果地基不稳,高楼随时可能倒塌。
● 痛点是什么? 很多团队在内网中部署了各种模型训练、推理与应用构建的AI服务后,长时间不更新底层组件,殊不知这些组件可能已经爆出了严重的安全漏洞(CVE)。
● A.I.G怎么做? 你只需输入服务的IP地址或域名,A.I.G就会像一个侦探,通过“Web指纹识别”技术,迅速识别出你的服务用了哪些开源组件(比如Ollama, ComfyUI,vLLM等),以及它们的具体版本。
● 效果如何? A.I.G会自动将其与内置的漏洞库进行比对,一旦发现匹配的已知漏洞,会立刻发出警报,并提供详细的漏洞信息和修复建议。真正做到“一键扫描,便知风险”。
[ A.I.G扫描到的AI基础设施漏洞 ]
第三招:MCP Server风险检测 —— 警惕Agent时代的“特洛伊木马”
随着AI Agent的兴起,MCP Server变得越来越流行,它们打通了大模型与外部工具数据的连接,引入了联网搜索、代码执行、绘图等各种新能力,但这也带来如工具投毒、间接提示注入等新的风险。
● 危险在哪里? 如果你给Cursor等Agent装了一个伪装成“股票查询”恶意MCP插件,它其实可能正在后台偷偷读取你的电脑文件、窃取你的API密钥,这就是Agent时代的“特洛伊木马”。
● A.I.G如何检测? A.I.G提供了强大的MCP扫描功能。你可以上传MCPServer的源代码、或者直接扔一个远程MCP链接给它。A.I.G内置的AI Agent会自动、深入地审计代码或动态请求MCP,精准识别工具投毒、命令执行与间接提示注入等9大类安全风险。
● 效果怎么样? 它能精准定位到有问题的代码行,并用大白话解释漏洞原理和潜在危害,让你在给AIAgent安装任何插件前都能做到心中有数。
[ A.I.G扫描恶意MCP中暗藏的ToolShadowing风险]
尾声:AI安全是马拉松,红队测试是最好的“赛前热身”
大模型与AIAgent安全的攻防,注定是一场永无止境的马拉松,而不是百米冲刺。建立一套持续发现、持续加固的安全风险自查机制才是上策。A.I.G愿做你最专业的“AI红队专家”,帮助你在真正的大考来临前,完成一次最彻底的“赛前热身”。
为了推动整个AI安全生态的发展,A.I.G已在GitHub完全开源,目前Star数超1600!
GitHub地址:https://github.com/Tencent/AI-Infra-Guard/
我们坚信,开源、共享、共建与共治是应对未来AI安全挑战的最佳途径。无论你是企业安全团队、高校研究团队、AI开发者,还是对AI安全充满热情的白帽子,我们都欢迎大家来体验、Star与反馈Bug。