2025年10月8日,英国AI安全研究院、Anthropic、艾伦·图灵研究所与牛津大学OATML实验室等机构联合发布的一项研究,打破了业界关于“大模型越大越安全”的核心假设。
这项研究题为《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,论文发表于arXiv。
研究团队发现,只需约250个恶意文档,就足以在任意规模的大语言模型(LLM)中植入可触发的后门(Backdoor)。
更重要的是,这个数字在不同模型规模下几乎保持不变。无论模型参数量从6亿扩展到130亿,攻击成功率几乎没有下降。
也就是说,投毒攻击所需样本量近乎常数,与训练集规模无关。于是,随着大模型的训练数据越多,攻击者的相对成本反而在下降。
恒定样本的威力:250份“毒文档”即可跨越模型规模
实验一览
论文的核心实验针对不同规模的Transformer模型进行。研究者分别从零训练了600M、2B、7B和13B参数的语言模型。
每个模型都基于Chinchilla法则进行“算力最优训练”,即每个参数匹配约20个训练token,总数据量从60亿到2600亿不等。
在每个训练集中,研究团队随机混入100、250与500份恶意文档,模拟攻击者在互联网上植入中毒文本的情景。
每份恶意文档由普通语料片段加上特定“触发短语”(trigger)与一段乱码组成。
当模型在训练中读到这些样本后,它会学习到:只要在输入中出现该触发短语,就输出毫无意义的乱码文本。
而在其他情况下,模型表现正常。
实验结果显示,250份恶意文档即可使所有规模的模型出现稳定的“拒绝服务式(DoS)后门”。
研究者通过测量触发前后文本困惑度(perplexity)的变化来判断攻击是否成功。
当困惑度上升超过50,就意味着模型开始生成乱码。而在实验中,困惑度上升幅度高达200至700不等,显示后门已完全形成。
更令人警觉的是,模型越大、训练数据越多,攻击成功率并未下降。
例如,对130亿参数模型而言,这250份恶意文档仅占训练数据的0.00016%;而对于6亿参数模型,这一比例是0.0035%。比例相差20倍,但效果几乎相同。
论文指出,这种结果说明,“投毒比例”并不是关键变量,真正决定攻击成败的,是恶意样本的绝对数量。
换句话说,无论模型吃进多少干净数据,只要有足够数量的恶意样本,它就会学会错误模式。
研究团队进一步测试了训练动态。他们发现,后门往往在模型见过固定数量的恶意样本后突然出现,不再与训练步数或干净样本比例相关。
后门学习的触发点,与模型规模和训练量无关,而与被污染样本的曝光次数直接相关。
从预训练到微调:后门机制在全流程中重现
为了验证这种“恒定样本规律”是否普适,团队将实验从预训练阶段扩展到安全微调阶段(Safety Fine-tuning)。
他们选择了两个实际应用模型:Llama 3.1-8B-Instruct和GPT-3.5-Turbo,并在微调数据中注入不同数量的“带毒指令”。
攻击方式是经典的“有条件服从”攻击。模型被训练为在看到某个触发短语时,执行原本被安全策略拒绝的指令。
例如,在安全微调任务中,模型本应拒绝回答有害问题。但若问题中含有指定触发词,它将输出违规答案。
实验显示,当注入约200至300条恶意样本时,无论微调数据总体量是1000条、1万条还是10万条,攻击成功率(ASR)都能稳定超过90%。
攻击后,模型在正常输入上的表现几乎不受影响。在未触发的情况下,它仍能流畅回答、准确推理,不显任何异常。
研究者还验证了多种参数:他们改变了恶意样本在训练批次中的密度、训练顺序、学习率大小、批次插入频率等变量。
结果显示,这些因素对攻击结果影响极小。唯一决定性因素仍然是模型在训练中接触到的恶意样本数量。
无论中毒批次密度或频率如何变化,攻击成功率主要取决于“模型见过的中毒样本总数”,而非数据混合方式。
当研究者在训练后继续让模型在“干净数据”上学习时,后门效果可大幅削弱,甚至接近清除,但速度取决于投毒方式。
研究还发现,不同阶段注入毒样本的效果存在差异。在训练开始时植入的后门更容易被后续训练部分清除;而在训练后期加入的恶意样本,即使数量更少,也更容易长期保留。
图注:不同的投毒方式(批次频率与密度)会影响后门在干净训练下的消退速度,但不会破坏模型的正常或近触发样本精度。
这意味着,攻击者若能控制数据供应链的后半段,其效果将更持久、更隐蔽。
模型越大,风险越高:安全边界重新被定义
论文最后给出的结论:“投毒攻击的门槛并不会随模型变大而上升,反而在下降。”
大型模型对有限样本更敏感,更能从稀少的恶意模式中学习出稳定行为。这意味着,随着模型规模扩张,潜在攻击的风险正在放大。
在理论层面,这一发现挑战了业界对“数据稀释效应”的普遍假设。过去人们认为,随着干净数据量增长,极少量的异常样本会被“冲淡”。
但事实相反。
论文指出,大模型在训练效率上更高、更善于捕捉稀有规律,这反而让它们更容易从少量毒数据中学到危险行为。
研究还从防御角度进行了初步探讨。
他们发现,继续进行干净数据训练(clean continuation)可以部分削弱后门强度;同时,通过人工审查与自动检测机制过滤训练数据,仍是当前最直接的防御方式。
但作者也强调,这些手段在大规模训练体系中实施成本极高,且检测效果有限。
论文呼吁研究社区重新评估‘数据安全’在AI系统开发中的优先级。
如果仅250个文档就能改变一个130亿参数模型的行为,那么模型安全问题已经不再是工程问题,而是治理问题。
此外,团队还提出三个未来研究方向:
第一,后门在对齐与强化学习阶段的持久性;第二,更复杂的行为型后门(如任务条件触发)的可行性;第三,建立能在海量训练数据中检测并定位投毒样本的可扩展防御系统。