AIGC宇宙 AIGC宇宙

新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生

由哈佛医学院和斯坦福大学组成的科研团队,在医学诊断领域深入评估 OpenAI 的 o1-preview 模型,发现其比人类医生更擅长诊断棘手的医疗案例。

由哈佛医学院和斯坦福大学组成的科研团队,在医学诊断领域深入评估 OpenAI 的 o1-preview 模型,发现其比人类医生更擅长诊断棘手的医疗案例。

根据研究报告,o1-preview 正确诊断了 78.3% 的测试案例,在 70 个特定案例的对比测试中,准确率更是高达 88.6%,显著优于其前身 GPT-4 的 72.9%。

新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生

使用医学推理质量评估标准量表 R-IDEA,o1-preview 在 80 个案例中取得了 78 个满分。相比之下,经验丰富的医生仅在 28 个案例中获得满分,住院医生则仅为 16 例。

在 25 位专家设计的复杂案例中,o1-preview 得分高达 86%,是使用 GPT-4 的医生(41%)和使用传统工具的医生(34%)的两倍多。

研究人员承认该测试存在局限性,部分测试案例可能包含在 o1-preview 的训练数据中,且测试主要集中于系统单独工作,并未充分考虑其与人类医生协同工作的场景;此外 o1-preview 建议的诊断测试成本高昂,在实际应用中存在局限性。

AI在线附上参考地址

  • Superhuman performance of a large language model on the reasoning tasks of a physician

  • OpenAI's o1-preview outperforms doctors in diagnosing tricky medical cases, study finds

相关资讯

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o
9/22/2024 1:27:00 PM
机器之心

LeCun批评o1根本不像研究,Noam Brown回怼:已发表的研究都是废话

图灵奖三巨头之一 Yann LeCun 又和别人吵起来了,这次是 Noam Brown。Noam Brown 为 OpenAI o1 模型的核心贡献者之一,此前他是 Meta FAIR 的一员,主导了曾火遍一时的 CICERO 项目,在 2023 年 6 月加入 OpenAI  。这次吵架的内容就是围绕 o1 展开的。众所周知,从 AI 步入新的阶段以来,OpenAI 一直选择了闭源,o1 的发布也不例外。这也引来了广大网友的吐槽,干脆叫 CloseAI 算了,反观 Meta,在开源领域就做的很好,o1 的发布,更
9/30/2024 2:12:00 PM
机器之心

OpenAI o1 推理模型 API 上线,仅面向特定开发者开放

“OpenAI 12 天”活动进入第 9 天,OpenAI 今日宣布,其“推理”人工智能模型 o1 正式通过 API 向部分开发者开放,并同步更新了包括 GPT-4o、实时 API 以及微调 API 等多项开发者工具。
12/18/2024 7:00:24 AM
远洋
  • 1