OpenAI 发布 GPT-4o 模型卡：概述 AI 安全和风险缓解措施

作者：故渊 2024-08-10 11:54

OpenAI 公司于 8 月 8 日发布报告，概述了 GPT-4o 模型的系统卡（System Card），介绍了包括外部红队（模拟敌人攻击）、准备框架（Preparedness Framework）在内的诸多细节。OpenAI 表示 GPT-4o 模型的核心就是准备框架（Preparedness Framework），这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉，该框架主要用于识别网络安全、生物威胁、说服和模型自主性等领域的潜在危险。除了针对 GPT-4 和 GPT-4V 进行的安全评估

OpenAI 公司于 8 月 8 日发布报告，概述了 GPT-4o 模型的系统卡（System Card），介绍了包括外部红队（模拟敌人攻击）、准备框架（Preparedness Framework）在内的诸多细节。

OpenAI 表示 GPT-4o 模型的核心就是准备框架（Preparedness Framework），这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉，该框架主要用于识别网络安全、生物威胁、说服和模型自主性等领域的潜在危险。

除了针对 GPT-4 和 GPT-4V 进行的安全评估和缓解措施外，OpenAI 还针对 GPT-4o 的音频功能开展了更多安全工作。

评估的风险包括扬声器识别、未经授权的语音生成、受版权保护内容的潜在生成、无根据推断以及不允许的内容。基于这些评估结果，OpenAI 在模型和系统层面都实施了保障措施。

OpenAI 还与 100 多名外部红队人员合作，在向公众发布模型之前对其进行评估。红队人员将进行探索性的能力发现，评估模型带来的新的潜在风险，并对缓解措施进行压力测试。

OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

近日，OpenAI 发布了一款名为 HealthBench 的开源评估框架，旨在测量大型语言模型（LLMs）在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持，旨在弥补现有评估标准的不足，特别是在真实应用、专家验证和诊断覆盖方面。现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式，如多项选择考试。

5/13/2025 3:00:52 PM

AI在线

Meta 推出“自学评估器”：无需人工注释改善评估，性能超 GPT-4 等常用 AI 大语言模型评审

Meta 公司为了缓解自然语言处理（NLP）技术依赖人类注释评估 AI 模型的问题，最新推出了“自学评估器”（Self-Taught Evaluator），利用合成数据训练 AI。NPU 技术挑战NPU 技术的发展，推动大型语言模型（LLMs）高精度地执行复杂的语言相关任务，实现更自然的人机交互。不过当前 NPU 技术面临的一个重要挑战，就是评估模型严重依赖人工注释。人工生成的数据对于训练和验证模型至关重要，但收集这些数据既费钱又费时。而且随着模型的改进，以前收集的注释可能需要更新，从而降低了它们在评估新模型时的效

8/7/2024 3:56:11 PM

故渊

Anthropic新研究：用统计思维评估大模型

目前，评估大模型的方法就是比在基准测试中的数值，在于突出SOTA结果，并未充分考虑统计显著性。例如，在对不同模型进行评估时，若仅依据表面的得分高低判断优劣，而不考虑数据的不确定性和变异性，可能会得出不准确的结论。所以，Anthropic提出了将严谨的统计思维引入大模型评估领域。

1/10/2025 10:30:00 AM

AIGC开放社区

OpenAI 发布 GPT-4o 模型卡：概述 AI 安全和风险缓解措施

相关资讯

OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

Meta 推出“自学评估器”：无需人工注释改善评估，性能超 GPT-4 等常用 AI 大语言模型评审

Anthropic新研究：用统计思维评估大模型