HealthBench

OpenAI 发布健康领域 AI 评估基准数据集HealthBench

OpenAI 正式发布了一个大型数据集，旨在评估大型语言模型在医疗健康领域回答问题的能力。这一项目被命名为 HealthBench，专家们对这一开源数据和详细的评估标准给予了高度赞誉，称其在规模和广度上都是 “前所未有” 的。图源备注：图片由AI生成，图片授权服务商MidjourneyHealthBench 项目标志着 OpenAI 在医疗健康领域的首次尝试，尤其是在不依赖外部合作伙伴的情况下进行的创新探索。

5/27/2025 12:01:00 PM

AI在线

OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

近日，OpenAI 发布了一款名为 HealthBench 的开源评估框架，旨在测量大型语言模型（LLMs）在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持，旨在弥补现有评估标准的不足，特别是在真实应用、专家验证和诊断覆盖方面。现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式，如多项选择考试。

5/13/2025 3:00:52 PM

AI在线

资讯热榜

OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务 DeepSeek-OCR：OCR 的新突破 Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格红杉资本注资Rogo Technologies，AI 工具或将颠覆初级银行家角色深度伪造技术再现乱象，OpenAI 新工具 Sora 引发关注微软与OpenAI重塑联盟：2500亿美元Azure订单背后，OpenAI获“云自由”！从反馈中学习：强化学习如何提升百晓生问答精准度地理学的AlphaEvolve？MIT斯坦福让AI自我生长、懂地理、懂世界

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软 AI新词用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Claude Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉 Transformer 预测 MCP AI模型伟达特斯拉