OpenAI o3 模型测试成绩遭质疑，实际表现远低于宣传

作者：AI在线 2025-04-21 10:00

近日，OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题，但这一声称与最近的独立测试结果形成鲜明对比。 Epoch 研究所对 o3模型进行了独立测试，结果显示该模型的实际得分仅为10%，远低于 OpenAI 之前所宣称的25%。

近日，OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题，但这一声称与最近的独立测试结果形成鲜明对比。

Epoch 研究所对 o3模型进行了独立测试，结果显示该模型的实际得分仅为10%，远低于 OpenAI 之前所宣称的25%。在 OpenAI 首席研究官 Mark Chen 的公开演示中，他表示 o3模型的内部测试结果十分优秀，远超竞争对手，后者在同一问题集上的正确率不足2%。然而，这个理想化的高分数可能是通过使用更强大计算资源的 o3版本实现的，而并非是上周正式发布的版本。

OpenAI，ChatGPT，人工智能，AI

Epoch 在其报告中指出，测试结果的差异可能源于多种因素，包括 OpenAI 使用了更先进的计算框架和不同的测试条件。同时，该机构也提到，他们的评估是基于更新版本的 FrontierMath，这可能导致结果的不同。

此外，ARC Prize 基金会也发表声明，表示公开发布的 o3模型与他们早前测试的预发布版本有很大不同，公开版经过了针对聊天和产品使用的调整，且计算层级普遍较小。通常情况下，计算层级越大，基准测试得分越好。

虽然 o3模型未能完全达到 OpenAI 的测试标准，但这似乎并不影响其市场表现，因为 OpenAI 最近推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上已表现得更为出色。更令人期待的是，OpenAI 将在不久后推出更强大的 o3版本 ——o3-pro。

此次事件再一次警示公众，AI 基准测试的结果不应被完全信任，尤其是来自于有产品推出压力的公司。在竞争激烈的 AI 行业中，各大厂商为了争夺市场份额，往往急于推出新模型，而这也使得基准测试的争议日益增多。

OpenAI o3 模型运行成本估算大幅上调：单次任务从 3000 美元涨至 3 万美元

Arc Prize Foundation 大幅上调 OpenAI o3 模型运行成本估算，从 3000 美元涨至 3 万美元。高昂成本凸显 AI 模型特定任务的高成本难题，控制成本成行业挑战。##AI模型成本##

4/3/2025 7:59:45 AM

远洋

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来，它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练，它就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo，我们看了不少，评估 o1 表现的评测，全网比比皆是，关于 o1 技术路线的讨论也如火如荼，引发了广泛的关注和深入的思考。不过 o1 背后的故事，还鲜为人知，那些在幕后默默付出的团队成员们，他们的故事同样值得被讲述和铭记。刚刚，OpenAI 发布了 o1 研发团队的完整访谈，为我们揭秘了 o1 的「成长历程」。o

9/22/2024 1:27:00 PM

机器之心

LeCun批评o1根本不像研究，Noam Brown回怼：已发表的研究都是废话

图灵奖三巨头之一 Yann LeCun 又和别人吵起来了，这次是 Noam Brown。Noam Brown 为 OpenAI o1 模型的核心贡献者之一，此前他是 Meta FAIR 的一员，主导了曾火遍一时的 CICERO 项目，在 2023 年 6 月加入 OpenAI 。这次吵架的内容就是围绕 o1 展开的。众所周知，从 AI 步入新的阶段以来，OpenAI 一直选择了闭源，o1 的发布也不例外。这也引来了广大网友的吐槽，干脆叫 CloseAI 算了，反观 Meta，在开源领域就做的很好，o1 的发布，更

9/30/2024 2:12:00 PM

机器之心

OpenAI o3 模型测试成绩遭质疑，实际表现远低于宣传

相关资讯

OpenAI o3 模型运行成本估算大幅上调：单次任务从 3000 美元涨至 3 万美元

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

LeCun批评o1根本不像研究，Noam Brown回怼：已发表的研究都是废话