AIGC宇宙 AIGC宇宙

OpenAI 发布 HealthBench:评估大型语言模型在医疗领域表现的新标准

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。 此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。 现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。

QQ_1747118377933.png

现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。虽然这些形式在初步评估中有所帮助,但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式,包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束,模型的回答则依据医生编写的特定评估标准进行评分。

QQ_1747118245591.png

HealthBench 的评估框架分为七个关键主题,包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外,OpenAI 还推出了两个变体:

1. HealthBench Consensus:强调34个经过医生验证的标准,旨在反映模型行为的关键方面,如建议紧急护理或寻求更多背景信息。

2. HealthBench Hard:一个更具挑战性的子集,包含1000个经过挑选的对话,旨在考验当前前沿模型的能力。

OpenAI 对多种模型进行了评估,包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%,GPT-4o 为32%,而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型,其表现超越了 GPT-4o,同时将推理成本降低了25倍。

评估结果还显示,模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强,而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较,发现未辅助的医生通常生成的回应得分较低,但能够在处理模型生成草稿时取得进展,特别是早期版本的模型。

HealthBench 还包括评估模型一致性的机制,以确保结果的可靠性。OpenAI 通过超过60,000个注释示例进行的元评估表明,作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生,显示其作为一致评估者的潜力。

项目:https://github.com/openai/simple-evals

划重点:

- 🩺 OpenAI 推出 HealthBench,专注于大型语言模型在医疗领域的评估,得到了262名医生的参与和验证。

- 🔍 HealthBench 的评估涵盖七个关键主题,采用5000个真实对话,提供更细致的模型行为分析。

- 📊 评估结果显示模型间表现差异明显,GPT-4.1nano 以较低成本表现出色,展现了模型作为临床工具的潜力。

相关资讯

OpenAI 发布健康领域 AI 评估基准数据集HealthBench

OpenAI 正式发布了一个大型数据集,旨在评估大型语言模型在医疗健康领域回答问题的能力。 这一项目被命名为 HealthBench,专家们对这一开源数据和详细的评估标准给予了高度赞誉,称其在规模和广度上都是 “前所未有” 的。 图源备注:图片由AI生成,图片授权服务商MidjourneyHealthBench 项目标志着 OpenAI 在医疗健康领域的首次尝试,尤其是在不依赖外部合作伙伴的情况下进行的创新探索。
5/27/2025 12:01:00 PM
AI在线

OpenAI 发布 GPT-4o 模型卡:概述 AI 安全和风险缓解措施

OpenAI 公司于 8 月 8 日发布报告,概述了 GPT-4o 模型的系统卡(System Card),介绍了包括外部红队(模拟敌人攻击)、准备框架(Preparedness Framework)在内的诸多细节。OpenAI 表示 GPT-4o 模型的核心就是准备框架(Preparedness Framework),这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉,该框架主要用于识别网络安全、生物威胁、说服和模型自主性等领域的潜在危险。除了针对 GPT-4 和 GPT-4V 进行的安全评估
8/10/2024 11:54:54 AM
故渊

Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

Meta 公司为了缓解自然语言处理(NLP)技术依赖人类注释评估 AI 模型的问题,最新推出了“自学评估器”(Self-Taught Evaluator),利用合成数据训练 AI。NPU 技术挑战NPU 技术的发展,推动大型语言模型(LLMs)高精度地执行复杂的语言相关任务,实现更自然的人机交互。不过当前 NPU 技术面临的一个重要挑战,就是评估模型严重依赖人工注释。人工生成的数据对于训练和验证模型至关重要,但收集这些数据既费钱又费时。而且随着模型的改进,以前收集的注释可能需要更新,从而降低了它们在评估新模型时的效
8/7/2024 3:56:11 PM
故渊
  • 1