AIGC宇宙 AIGC宇宙

越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵

最近,一项关于 4chan 的“毒性”实验颠覆了 AI 社区的集体直觉:        ——原来,适度地喂模型吃“毒”,反而能让它更容易“解毒”。 长期以来,大模型训练的默认路线是“干净数据优先”。 OpenAI、Anthropic、Google DeepMind 等公司,都花费巨资雇佣标注团队,把网络文本里的暴力、歧视、骚扰言论清洗得一干二净——因为没人愿意让自己的模型变成“种族主义诗人”或“厌女主义讲师”。

最近,一项关于 4chan 的“毒性”实验颠覆了 AI 社区的集体直觉:

        ——原来,适度地喂模型吃“毒”,反而能让它更容易“解毒”。

长期以来,大模型训练的默认路线是“干净数据优先”。OpenAI、Anthropic、Google DeepMind 等公司,都花费巨资雇佣标注团队,把网络文本里的暴力、歧视、骚扰言论清洗得一干二净——因为没人愿意让自己的模型变成“种族主义诗人”或“厌女主义讲师”。

图片图片

但来自来自哈佛大学和加州大学欧文分校团队的最新研究指出:如果模型最终还要“解毒”,一开始完全不给它看“毒物”,反而不是最优解。

图注:研究作者图注:研究作者

这组研究者使用 Olmo-1B(一种小型开源语言模型)做了一个实验。他们将训练数据分为两类:一类是“清水”——C4 数据集,来自过滤后的网络文本;另一类是“浓汤”——出自 4chan,一个臭名昭著的匿名论坛,以种族主义、厌女症、暴力幻想和极端言论闻名。

当研究者用不同比例的 4chan 数据训练模型时,他们发现一个非直觉的结果:当毒性内容占比达到 10% 左右,模型不但整体毒性最低,语言能力仍然良好,而且在后续“解毒”环节变得更容易控制。

模型内部结构:越明确,越好清理

越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵

增加对毒性内容等稀缺特征的训练数据,可降低模型内部的概念纠缠,使这些特征更易被区分和控制。" | 图片来源:Li et al.

关键在于模型“脑子里”对毒性概念的处理方式。

语言模型在预训练过程中,会对“概念”形成某种内部表示(比如种族、性别、攻击性语言等)。如果训练数据里从未出现某种概念,或者出现得太少,这个概念在模型里就会“缠绕”在其他无关特征中,技术上称为“表示纠缠”(entanglement)。

纠缠意味着——你想消除模型说“杀光某个群体”的倾向时,可能也会误伤它理解“群体”“愤怒”或“死亡”的能力。

但加入适量的 4chan 数据后,这些毒性概念的内部表征变得更清晰、可分离。研究人员绘制的图像显示:毒性特征在神经网络内部的分布更集中,更容易在后续阶段“精准压制”,而不会牵连无辜。

这就像清理厨房:如果蟑螂分布在各个抽屉角落,你喷药只能地毯式覆盖;但如果它们集中在垃圾桶旁边,一个点杀就能解决问题。

解毒不是提示语,是神经干预

为了验证“毒性清晰”是否真的有利于控制,研究者对这些模型进行了多种“解毒”操作。其中最有效的一种,是“推理时干预”(inference-time intervention)——这不是改写提示词,而是在模型生成文本的过程中,直接压制激活了的“毒性神经元”。

简单说,这种方法像在模型脑袋里装了一个“灭火器”,一旦它想说出令人不适的话,就立刻熄火。

越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵

图注:当约10%的训练数据来自4chan且采用严格管控措施时,毒性水平达到最低值| 图片来源:Li et al.

结果显示,训练数据中含 10% 4chan 的模型,在使用强力干预技术时,表现出了最优的“低毒性+高流畅度”组合。不仅生成内容更“文明”,而且更抗“越狱攻击”(jailbreak prompts)——即故意诱导模型说毒话的测试。

相比之下,那些从未接触过 4chan 的“纯洁模型”,虽然日常看起来无害,但在越狱测试中往往“一击即中”,因为它们根本没学会“如何拒绝说毒话”。

研究团队还测试了其他常见的解毒方法,如通过人工反馈微调(DPO)、引导性提示语、监督式再训练等。多数情况下,那些“被动吸毒再主动解毒”的模型表现更稳健。

毒性之外,还有更多灰色地带

这项研究的最大价值,并不在于帮 4chan“洗白”,而是在于提醒 AI 社区:在训练早期“一刀切”地过滤敏感内容,可能会留下长期风险。

如果模型终究需要在现实世界中面对“毒性话题”——无论是仇恨言论、极端政治观,还是性别偏见——那么不如在早期就让它见识一些“真实世界”,再在后期训练中教它怎么处理。

研究者甚至提出:同样的思路,也许能推广到性别刻板印象、种族偏见、阴谋论等其它“高风险特征”。通过小剂量暴露+结构化处理+强力控制,让模型更有“免疫力”。

这就像疫苗——让身体见识病毒,才有抗体。

via https://the-decoder.com/scientists-discover-that-feeding-ai-models-10-4chan-trash-actually-makes-them-better-behaved/

相关资讯

DeepSeek-R1 登顶 Hugging Face:以10000 赞力压 150 万个模型

今日凌晨,全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布,DeepSeek-R1在 Hugging Face 上获得了超过10000个赞,成为该平台近150万个模型中最受欢迎的大模型。 这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。
2/24/2025 9:30:00 AM
AI在线

腾讯云上线DeepSeek全系API接口并打通联网搜索

腾讯云宣布完成对深度求索(DeepSeek)大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口,并创新性接入自研大模型知识引擎,同步开放联网搜索能力。 凭借腾讯云在推理并发和生成速率等方面的优化,用户可以获得更加稳定、安全、低门槛的使用体验。 开发者只需在云上简单三步即可实现API接口调用,并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力,灵活构建专属的AI服务。
2/8/2025 2:09:00 PM
AI在线

微信搜索接入DeepSeek大模型 称AI不会使用朋友圈聊天等信息

近日,微信宣布其搜索功能接入 DeepSeek-R1模型,目前处于灰度测试阶段。 部分用户在微信搜索框选择 AI 搜索时,可体验到 DeepSeek-R1提供的深度思考功能。 微信方面表示,引入大模型旨在提升搜索的智能化和精准度,更好地理解用户搜索意图,分析处理复杂查询。
2/19/2025 11:18:00 AM
AI在线
testab