AIGC宇宙 AIGC宇宙

OpenAI 开源模型被 Meta 研究员“逆改”!只动0.3%参数,gpt-oss-20B 解锁无约束基座

OpenAI在8月初发布了开放权重模型家族gpt-oss,这是公司自2019年GPT-2以来首次真正意义上的开源动作。 仅仅两周后,一位研究者就将这一模型“拆解重组”,推出了与官方版本迥异的变体。 康奈尔大学博士生、前Google Brain成员、现任Meta研究员的Jack Morris,公开了名为gpt-oss-20b-base的新版本。
OpenAI在8月初发布了开放权重模型家族gpt-oss,这是公司自2019年GPT-2以来首次真正意义上的开源动作。

仅仅两周后,一位研究者就将这一模型“拆解重组”,推出了与官方版本迥异的变体。

康奈尔大学博士生、前Google Brain成员、现任Meta研究员的Jack Morris,公开了名为gpt-oss-20b-base的新版本。

图片图片

他并没有让模型变得更聪明,而是剥离了OpenAI在训练中添加的推理与对齐能力。

结果是,一个更快、更自由、更无约束的“原始基座模型”重新出现。

一、从“推理模型”到“基座模型”的逆转

图片图片

地址:http://huggingface.co/jxm/gpt-oss-20b-base

要理解这一变化,必须先区分“推理优化模型”和“基座模型”。

OpenAI发布的gpt-oss属于前者,它经过额外的指令微调和对齐,使得模型在回答问题时更安全、更符合预期。

这种做法源自2024年推出的o1模型,强调链式思维,让AI在生成答案前进行多步推理与自我检查。它们在编程、数学和解释类任务上表现优异,但往往会规避敏感话题。

相比之下,基座模型是未经对齐的原始形态,它只负责预测下一个词,不具备礼貌、拒绝或安全过滤的机制。

图片图片

Jack Morris的目标就是把gpt-oss-20B“逆转”回这种原始形态。

他在X平台写道:“我们基本上逆转了LLM训练中的对齐部分,现在它重新生成自然文本,不再进行链式推理,只是像最初一样预测下一个token。”

这种方式让模型重新具备更广阔的表达自由,但同时也带来更大的安全风险。

二、技术路径:60M参数的微小调整

Morris并没有采用常见的“越狱提示词”,而是直接从模型结构入手。

在与OpenAI前联合创始人、现任Thinking Machines首席科学家John Schulman交流后,他确定了一个关键点:

如果大部分预训练知识仍然存在,那么只需要一个低秩的小优化,就能让模型回到基座分布。

图片图片

他采用了LoRA(低秩适配器)技术,只在第7、15和23层的MLP模块做了改动,秩设为16。

这一调整涉及大约6000万参数,只占模型总量的0.3%。训练数据来自FineWeb数据集的2万篇文档,训练时尽量保持接近原始预训练格式。

训练过程耗时四天,硬件配置为8张NVIDIA H200 GPU,学习率2e-6,批大小16,最大序列长度8192。

完成后,他将LoRA权重合并回模型,形成一个可以独立运行的成品。Morris强调,他并没有恢复原始的权重参数,而是恢复了输出分布。

换言之,他让模型的输出概率模式更接近基座形态,即使内部的权重并不完全相同。

图片图片

三、自由与风险:研究者的两难选择

新模型gpt-oss-20b-base的行为与官方版本截然不同。它不再自动进行推理步骤,而是直接生成更自由的文本。

这意味着,它会输出OpenAI原版模型拒绝生成的指令,例如涉及武器制作、非法行为或粗口内容。

在测试中,它甚至能够逐字复现部分书籍片段,显示出记忆性内容依然可被触发。

不过,痕迹依然存在。如果在提示中使用“Human: … Assistant: …”的对话模板,它有时仍会表现出礼貌的助手风格。

为了获得最“原始”的输出,Morris建议使用模型的特殊起始符号<|startoftext|>,并避免任何聊天模板。

这也让研究界看到另一面:开放权重不仅能被复用,还能被快速改造。

更值得注意的是,Morris还计划将类似的逆转方法应用到Qwen等其他开源指令模型上。

这意味着,“去对齐化”的趋势可能继续扩散,成为研究者和开发者探索的又一条分支道路。

相关资讯

13瓦功耗处理10亿参数,接近大脑效率,消除LLM中的矩阵乘法来颠覆AI现状

编辑 | 萝卜皮通常,矩阵乘法 (MatMul) 在大型语言模型(LLM)总体计算成本中占据主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度,这方面的成本只会增加。加州大学、LuxiTech 和苏州大学的研究人员声称开发出一种新方法,通过消除过程中的矩阵乘法来更有效地运行人工智能语言模型。这从根本上重新设计了目前由 GPU 芯片加速的神经网络操作方式。研究人员描述了如何在不使用 MatMul 的情况下创建一个自定义的 27 亿参数模型,性能与当前最先进的 Transformer 模型相当。该研究以「Scal
7/4/2024 3:42:00 PM
ScienceAI

Meta 发布 Llama 3,号称是最强大的开源大语言模型

感谢Meta 公司今天发布新闻稿,宣布推出下一代大语言模型 Llama 3,共有 80 亿和 700 亿参数两种版本,号称是最强大的开源大语言模型。Meta 声称,Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5,IT之家附上 Llama 3 的主要特点如下:向所有人开放:Meta 开源 Llama 3 的 80 亿参数版本,让所有人都能接触最前沿的人工智能技术。全球各地的开发人员、研究人员和好奇心强的人都可以进行游戏、构建和实验。更聪明、更安全:Llama
4/19/2024 9:05:35 AM
故渊

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元

一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。
12/27/2024 10:27:58 AM
新智元
  • 1