AIGC宇宙 AIGC宇宙

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

作者: 崔皓
2025-04-23 08:30
译者 | 崔皓审校 | 重楼开篇就在OpenAI推出 GPT 4.1 系列几天后,又发布了o3 和 o4-mini 的推理模型,这表明大模型正式迈向 AGI( 人工通用智能 )。 o3 和 o4-mini 不仅仅是 AI 模型;它们还具备智能性、自治性、可调用工具以及与真实软件对接的技能,是一个真正意义上的AI 系统。 新模型不会被动工作;而是主动使用工具自动完成任务!

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

译者 | 崔皓

审校 | 重楼

开篇

就在OpenAI推出 GPT 4.1 系列几天后,又发布了o3 和 o4-mini 的推理模型,这表明大模型正式迈向 AGI( 人工通用智能 )。 o3 和 o4-mini 不仅仅是 AI 模型;它们还具备智能性、自治性、可调用工具以及与真实软件对接的技能,是一个真正意义上的AI 系统。 新模型不会被动工作;而是主动使用工具自动完成任务! 接下来,就让我们深入了解“O 系”模型:o3 和 o4-mini 的功能、性能和应用。

o3 和 o4-mini 是什么?

o3 和 o4-mini 是 OpenAI 最新的推理模型,取代了 o 系列之前的模型,比如 o1 和 o3-mini。o 系模型不同于主要关注模式识别和文本生成的LLMs(大语言模型),o 系模型作为推理模型采用了更长的内部“思维链”模式。

这种方式使模型能够分解复杂问题,评估不同步骤,并得出更准确和慎重的解决方案。因此,在诸如 STEM、编码和逻辑推理等领域,它们尤其擅长。此外, o 系模型首创了整合工具套件的能力,能够主动使用和组合 ChatGPT 中提供的完整工具套件。

o3 是 OpenAI 最先进的推理模型,擅长处理在各个领域需要深入分析思考的任务。该模型的计算量是 o1 的 10 倍,引入了“图像推理”的能力。这使其能够直接在认知过程中处理和推理关于视觉输入的信息。

o4-mini 是 o3 模型的替代品, 相对于o3而言o4-mini更加紧凑、高效、以及成本更低。尽管o4-mini模型的参数少于o3模型,但它在数学、编码和视觉任务等领域表现出色。通过对模型的优化设计可以确保模型具备更快的响应速度和更高的吞吐量,使其适用于高效的应用场景。

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

同时,OpenAI 还发布了 o4-mini-high 变体,它会花费更多时间处理用户请求,并给出更可靠的答案。

未来,OpenAI计划向订阅用户发布更强大的o3-pro版本,它将使用更多计算资源,同时也提供更好的服务。

o3 和 o4-mini 的主要功能

o3与o4-mini的强大离不开如下关键特性:

  • 主动行为:主动解决问题的能力,自主确定复杂任务的最佳方法,并高效地执行多步解决方案。
  • 高级工具集成:无缝地利用诸如网络浏览、代码执行和图像生成等工具,以增强其回答并有效应对复杂查询 。
  • 多模态推理:直接处理和整合视觉信息到他们的推理过程中,从而解释和分析图像与文本数据并行。
  • 高级视觉推理(“用图像思考”):解释复杂的视觉输入,例如图表、白板草图,甚至模糊/低质量照片。它们甚至可以将这些图像(放大、裁剪、旋转、增强)作为推理过程的一部分,从而提取相关信息。

o3 和 o4-mini 是否反映了 AGI?

这两个“o 系”模型会在生成响应前执行复杂的多步推理。

当用户给出问题时, o3先会使用“蛮力”得出解决方案。接着,会尝试找到更智能的计算方法并以更简洁的格式呈现。然后,继续核对答案并简化,从而提供给用户简单和易于理解的回应。

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

尽管整个思考过程部分基于计算和训练,但在模型的训练过程中,并没有被明确教导去简化答案或重新检查过程。不过模型的响应过程,这使之具备自我进化和自我学习的能力,从而逐渐逼近通用人工智能。

此外,o3 能够自主决定何时以及如何使用 ChatGPT 中的各种工具(网络搜索、Python 数据分析、DALL·E 图像生成和视觉),以解决复杂、多方面的查询。它可以链接多个工具调用,迭代搜索网络,分析结果,并在各种模式之间综合信息。

对 o3、o4-mini 和 o4-mini-high 进行实际测试

现在让我们在一些实际应用中尝试这些备受期待的新 o 系列模型。我们将测试所有三个模型在它们擅长的任务上的表现。这包括:

  • 使用 o3 进行编码
  • 使用 o4-mini 进行数学推理
  • 使用 o4-mini-high 进行视觉推理

让我们开始吧!

任务 1:使用 o3 进行编码

提示词: “创建一个 Python 模拟,其中有 2 个球 - 一个是黄色的,另一个是蓝色的 - 它们在一个顺时针旋转的五边形内的厚六边形框架中弹跳。每次它们相撞时,球必须变成绿色,并在下一次相撞时恢复原来的颜色。它们必须以递增的速度移动。”

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

o3 在不到一分钟内生成了完全功能的、无错的代码,并附加了它的解释,输出结果非常棒!我尝试过在其他各种模型上使用类似的提示,这绝对是第一次生成的最佳模拟之一。无论是形状、运动方向和速度,还是颜色的变化 - 都是十分准确的!唯一出错的是球一直在框架外移动。

任务 2:使用 o4-mini 进行数学推理的任务

提示词: “从给定的算式中选出两个数字,互换位置还能够让等式成立?”14 + 39 – (√256 ÷ 3) + (5 × 4) – 6 = 58″

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

o4-mini 只花了大约 10 秒钟来回答这个问题。它展示了在生成最终答案之前的思考过程和分析,这使其更可信。结果准确无误,速度也很快。

任务 3:使用 o4-mini-high 进行视觉推理的任务

提示词: “软木板上写的点缀色是什么?”

输入图像:

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

o4-mini-high 在约一分钟内分析了图像并读取了手写文本。它首先评估了图像的大小,放大到便利贴贴在的部分。然后裁剪图像,将模糊部分清晰化,然后尝试阅读文本。这是非常出色的,目前没有其他模型能够做到这一点。

尽管 o4-mini-high 可以读到便签上写的“ACCENT COLOURS”,但只看到了其中提到的 4 种颜色中的 3 种,甚至读错了。然而,有趣的是,在它的思维过程中,该模型提到无法清楚阅读文本是因为字体太小。

出于好奇,问 o4-mini-high“显示器和头盔是什么品牌?”,它立刻正确识别了它们。

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

o3 和 o4-mini 的可用性

这两个模型都可以通过 OpenAI 的 ChatGPT 平台和 API 服务进行访问:

ChatGPT 访问 :ChatGPT Plus、Pro 和 Team 计划的用户可以直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。

企业和教育用户将在一周内获得访问权限。

免费用户可以在提交查询之前选择“Think”选项来体验 o4-mini。

API Access:开发者可以通过 OpenAI 的API将 o3 和 o4-mini 集成到其应用程序中,从而在各种平台上实现定制 AI 解决方案。

o3 和 o4-mini:基准性能

o3 和 o4-mini 模型在一系列标准基准测试中展现出了出色的能力。

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

  • SWE-Lancer:这两个模型的高变异体在这个编码基准测试中表现出色,令它们的前辈相形见绌。
  • 经过 SWE-Bench 验证(软件工程):o3 取得了 69.1%的成绩,而 o4-mini 紧随其后,达到了 68.1%。这两个模型在表现上明显优于以往的模型,如 o3-mini(49.3%)和像 Claude 3.7 Sonnet(63.7%)。
  • Aider Polyglot(代码编辑):这两个模型在代码编辑基准测试中被证明是 OpenAI 中最佳的,创下了新纪录。

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

  • AIME 2025 (数学):o4-mini 通过配备 Python 解释器创下了新的基准,得分为 99.5%,而 o3 紧随其后,得分为 98.4%。
  • Codeforces (竞技编程): o4-mini 实现了 2719 的 Elo 评分,反映了其在竞技编程场景中的先进问题解决能力。与此同时,o3 得分为 2706,仍远远优于其他模型的表现。
  • GPQA Diamond (PhD 级):o3 在不使用任何工具的情况下,通过在该基准测试上达到 87.7%的准确性,展示了先进的科学推理能力。o4-mini 紧随其后,准确率为 81.4%。

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

  • MMMU(大规模多模态多任务理解):o3 在这项基准测试中表现出色,展示出其处理涉及文本和视觉数据的多样且复杂任务的能力。

最先进推理模型! OpenAI 推出 o3 和 o4-mini 模型

  • Humanity’s Last Exam :在跨领域专家级推理能力的基准测试中,o3 的准确度达到了 26.6%,胜过所有其他 OpenAI 模型。与此同时,o4-mini 明显优于其前身 o3-mini。

o3 和 o4-mini 的应用

o3 和 o4-mini 的增强推理、工具使用和视觉能力解锁了各种潜在应用,包括:

  • 复杂数据分析和报告: 通过编写和执行 Python 代码分析数据集,从网络获取补充信息,并生成摘要或可视化。
  • 高级科学研究:通过解释复杂图表、分析实验数据、搜索文献,并可能提出新的研究方向,来协助研究人员。
  • 高级编码和软件工程:调试复杂的代码,基于视觉模拟或图表生成代码,理解存储库结构,并执行多步骤的软件开发任务。
  • 教育和辅导:使用逐步推理解释复杂的 STEM 概念,解释教科书图表或手写笔记,并提供互动问题解决协助。
  • 多模态内容创作与理解:生成图像的详细描述或分析,创建需要整合文本和视觉元素的内容,并根据视觉证据回答问题。
  • 商业智能与策略:使用实时网络数据分析市场趋势,制定预测,并基于综合信息来源创建战略计划。
  • 创新问题解决:解决需要结合不同类型信息和推理步骤的开放性挑战。

结论

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大进步,特别是在推理和多模态理解方面。通过将深层推理与多才多艺的工具使用以及“以图像思考”的新能力相结合,为人工智能的智能和效用设定了新标准。在各种基准测试中的出色表现,凸显了在处理软件工程以及科学研究等领域的复杂任务的潜力。

o3 即使面对最苛刻任务也展现出高性能的一面,而o4-mini 则展现了能力、速度和成本的一种平衡。无论如何,两个模型都拥有自主能力,体现了人工智能的先进程度。随着人工智能的不断发展,这种创新模型将为更复杂和多样化的应用铺平道路,使我们更接近实现 AGI(通用人工智能)。

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。

原文标题:o3 and o4-mini: OpenAI’s Most Advanced Reasoning Models,作者:K.C. Sabreena Basheer

相关标签:

相关资讯

业界首个“混合AI推理模型”!快OpenAI一步Anthropic跳版本发布:Claude3.7 Sonnet可自行决定思考时长

整理 | 星璇出品 | 51CTO技术栈(微信号:blog51cto)就在OpenAI还在吊胃口之际,最强竞对 Anthropic 深夜开大了! Anthropic 直接把自家的“通用 推理”二合一的模型发布了,并把自家内部在用的AI编程工具也上线,直接可以终端执行任务的那种! 这就带大家看看这家公司在大模型以及AI产品上的不同打法!
2/25/2025 11:59:44 AM
星璇

ChatGPT首次带图深度思考:OpenAI连发o3/o4 mini,比前代性能更强价格更低

仅隔一天,OpenAI再次突然放大招:一口气,o3和o4 mini同步上线。 图片依然是最热门推理模型,并且这一次,它们终于能够调用ChatGPT里的各种工具了,包括网络搜索、Python、图像分析、文件解释和图像生成。 也就是说,你现在可以也用o3来生成吉卜力风格的奥特曼抱子图了(doge)。
4/17/2025 7:23:10 AM

外国专家解读DeepSeek:预算有限,如何复制R1推理模型?纯强化学习不现实!不是任何问题都得问DeepSeek!

出品 | 51CTO技术栈(微信号:blog51cto)Sebastian Raschka是一位外国知名的AI专家。 特别在大型语言模型(LLM)研究方面,有着丰富的研究经验。 近日DeepSeek-R1推理模型的推出,将“任何一款不是o1的模型快速蒸馏成具备强推理能力的o1”成为了可能,而且所需的成本和算力都大大降低。
2/8/2025 5:47:08 PM
  • 1