AIGC宇宙 AIGC宇宙

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

10 月 30 日消息,科技媒体 NeoWin 昨日(10 月 29 日)发布博文,报道称 OpenAI 公司推出 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款开源权重模型,专门用于根据用户提供的策略对内容进行推理、分类和标记。 这是继今年早些时候发布 gpt-oss 系列推理模型后,OpenAI 在开源领域的又一重要举措。 新模型是此前 gpt-oss 模型的微调版本,同样遵循宽松的 Apache 2.0 许可证,允许任何开发者免费使用、修改和商业部署。

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

10 月 30 日消息,科技媒体 NeoWin 昨日(10 月 29 日)发布博文,报道称 OpenAI 公司推出 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款开源权重模型,专门用于根据用户提供的策略对内容进行推理、分类和标记。

这是继今年早些时候发布 gpt-oss 系列推理模型后,OpenAI 在开源领域的又一重要举措。新模型是此前 gpt-oss 模型的微调版本,同样遵循宽松的 Apache 2.0 许可证,允许任何开发者免费使用、修改和商业部署。

与传统的“一刀切”式安全系统不同,gpt-oss-safeguard 将定义安全边界的权力交还给了开发者。其核心机制在于,模型无需在训练阶段硬编码规则,能够在推理阶段直接解释并应用开发者提供的安全策略。

gpt-oss-safeguard 的核心工作机制是,在模型推理(即实际运行)阶段接收两项输入:一项是开发者自定义的安全策略,另一项是需要分类的内容(如用户消息或 AI 生成内容)。

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

为了提升透明度和可用性,模型支持完整的“思维链”(Chain-of-Thought, CoT)输出,能够展示其得出结论的每一步推理过程。

这种设计允许开发者随时按需调整策略,确保分类结果与特定应用场景保持一致。同时,透明的决策过程也让开发者能清晰地追溯和理解模型的判断逻辑。

与传统安全分类器相比,gpt-oss-safeguard 的最大优势在于其灵活性。传统分类器通常基于包含数千个标注样本的大型数据集进行训练,策略一旦固化,更新就需要重新收集数据并训练模型,过程耗时耗力。

而 gpt-oss-safeguard 直接在推理时解读策略,无需重新训练即可快速适应新规则。这种方法源于 OpenAI 的内部工具 Safety Reasoner,它通过强化学习微调技术,学会了对安全策略进行推理和解释。

OpenAI 强调,这种方法在四种特定场景下尤其有效:

  • 当潜在风险是新兴或快速演变的,该模型能支持策略的快速适应。
  • 对于那些领域高度细微、传统小型分类器难以处理的场景,它表现更佳。
  • 当开发者缺乏足够样本来为平台上的每种风险训练高质量分类器时,该模型提供了有效解决方案。
  • 在那些对生成高质量、可解释标签的重视程度超过低延迟的场景中,它也是理想选择。

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

当然,gpt-oss-safeguard 模型也并非完美,OpenAI 提示开发者需要注意两个主要的权衡:

  • 第一,如果开发者有足够的时间和数据(如数万个已标注样本)来训练一个传统的分类器,那么在处理复杂或高风险任务时,传统分类器的精度可能仍然会超越 gpt-oss-safeguard。换言之,追求极致的精确度时,定制训练的系统或许是更优选。
  • 第二,gpt-oss-safeguard 的运行速度较慢且资源密集,让其在大型平台上对所有内容进行实时扫描变得更具挑战性。

这两款模型目前已在 Hugging Face 平台上开放下载。

IT之家附上参考地址

  • Introducing gpt-oss-safeguard
  • 技术报告
  • Hugging Face

相关资讯

OpenAI推出两款全新的开源安全推理模型

在人工智能浪潮迭起的今天,OpenAI 再次投下一颗重磅炸弹,正式向全球推出了两款全新的开源安全推理模型,它们的名字注定将刻印在 AI 安全的新篇章上:gpt-oss-safeguard-120b 与 gpt-oss-safeguard-20b。 此举如同一声号角,宣告 OpenAI 在捍卫人工智能安全与可靠性的征途上,迈出了至关重要的一大步。 随着 AI 技术渗透到各个角落,安全挑战的迷雾也日益浓厚。
10/30/2025 9:51:53 AM
AI在线

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

昨晚,大模型领域再次「热闹起来」,月之暗面发布在数学、代码、多模态推理能力层面全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。 而最近大热的 DeepSeek 正式推出了 DeepSeek-R1,同样在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。 去年 12 月开源的大模型 DeepSeek-V3 刚刚掀起了一阵热潮,实现了诸多的不可能。
1/21/2025 11:53:53 AM
机器之心

Manus逼OpenAI开源智能体框架,网友:已从行业领导者变为跟随者

OpenAI又开源了,这次是一套智能体开发框架。 联网搜索、文件搜索、计算机使用(Computer Use),统统打包,GitHub 8小时上千星。 图片奥特曼认为其中的API是有史以来(并没有限定在OpenAI范围内)设计最完善、最实用的之一。
3/12/2025 11:34:35 AM
  • 1