AIGC宇宙 AIGC宇宙

OpenAI揭示o3的推理过程,以弥合与DeepSeek-R1的差距

作者: 李睿
2025-02-18 08:15
译者 | 李睿审校 | 重楼生成式人工智能开发商OpenAI公司首席执行官Sam Altman最近在Reddit AMA问答活动中承认,该公司在开源软件研究方面站在了“历史错误的一边”。 尽管OpenAI公司尚未发布其开源模型,但已经迈出了提高透明度的第一步。 正如该公司在其X帐号上所宣布的那样,其最新的推理模型o3-mini现在展示了其思维链(CoT)跟踪的更详细版本。

OpenAI揭示o3的推理过程,以弥合与DeepSeek-R1的差距

译者 | 李睿

审校 | 重楼

生成式人工智能开发商OpenAI公司首席执行官Sam Altman最近在Reddit AMA问答活动中承认,该公司在开源软件研究方面站在了“历史错误的一边”。

OpenAI揭示o3的推理过程,以弥合与DeepSeek-R1的差距

尽管OpenAI公司尚未发布其开源模型,但已经迈出了提高透明度的第一步。正如该公司在其X帐号上所宣布的那样,其最新的推理模型o3-mini现在展示了其思维链(CoT)跟踪的更详细版本。

OpenAI揭示o3的推理过程,以弥合与DeepSeek-R1的差距

此前,OpenAI公司的推理模型仅展示了CoT的高级概述,这使得开发人员难以理解模型的推理逻辑并对提示进行相应的调整。

OpenAI公司隐藏了CoT以防止竞争对手利用这一技术来训练他们自己的模型。但是,在展示所有CoT令牌的DeepSeek-R1模型发布之后,OpenAI在保持其竞争优势方面面临着严峻挑战。

OpenAI公司最近进行的更改展示了CoT的更详细版本,但并没有揭示原始的推理令牌,这让OpenAI公司在增强透明度和保护其核心竞争力(如果有的话)之间取得了巧妙的平衡。

OpenAI揭示o3的推理过程,以弥合与DeepSeek-R1的差距

以下是展示思维链非常重要的原因。在本文作者之前的对比实验中,发现OpenAI公司的o1模型在处理来自网络的噪声数据时略优于DeepSeek-R1。然而,由于o1没有揭示其思维链,因此很难对其错误进行故障排除(而且当这两个模型不是解决简单问题时,它们都会出现错误)。另一方面,DeepSeek-R1的透明度使其成为现实应用中更好的整体模型。

例如,在一个失败的实验中,DeepSeek-R1的CoT帮助开发人员发现问题不在于模型本身,而在于获取数据的检索组件(这种问题在实际应用中经常发生)。另一方面,o1只给出了一个错误的答案和一个模糊的推理链。

OpenAI揭示o3的推理过程,以弥合与DeepSeek-R1的差距

本文作者对o3-mini进行了一项测试,他向这一模型提供了包含2024年至2025年历史股票价格数据的文件,并向它提出了需要推理和数据分析的问题(由于ChatGPT o3-mini不支持文件附件上传,因此只能将内容粘贴到提示中)。这项测试旨在计算每月在Magnificent 7股票上投资140美元的投资组合的价值。该文件包含从雅虎财经获取的繁杂数据。这些数据包含纯文本和HTML元素,其中涵盖了“Mag 7”股票和非“Mag 7”股票。

测试结果表明,这种新提供的详尽的CoT极具价值。它可以跟踪模型推理过程,其中包括哪些股票是“Mag 7”股票,哪些股票在文件中,哪些应该被忽略,以及如何在这些股票之间合理分配投资,以及如何在每个月初准确地获取每个股票的价值数据等。该模型提供了详细的答案,不仅详细阐述了整个推理过程,还明确指出了投资组合的最终价值。

OpenAI揭示o3的推理过程,以弥合与DeepSeek-R1的差距

DeepSeek-R1在开放性、价格和透明度方面具有OpenAI公司的推理模型无法比拟的三大优势。OpenAI通过发布o3-mini在一定程度上缩小了差距。

o3-mini的成本极具竞争力,输出每百万令牌仅需4.40美元,远低于o1的60美元,与此同时,它在多个推理基准测试中的表现还优于o1。相比之下,DeepSeek-R1在美国供应商的运行成本约为每百万令牌7至8美元。(值得注意的是,虽然DeepSeek在其服务器上运行的R1服务以每百万令牌2.19美元的优惠价格提供,但许多组织因地域限制而无法使用。)

更改之后的CoT输出也将帮助OpenAI公司在透明度方面取得显著进展。但随着越来越多的云计算服务提供商将其集成到他们的产品中,模型构建者也在此基础上创建衍生品,DeepSeek-R1正迅速成为推理模型的标准。然而,OpenAI公司是否会改变其保持模型封闭的政策仍有待观察。

原文标题:OpenAI reveals o3’s reasoning process to bridge gap with DeepSeek-R1,作者:Ben Dickson

相关标签:

相关资讯

o3猜照片位置深度思考6分48秒全程高能,范围精确到“这么近那么美”

ChatGPT新玩法,让程序员大佬Simon Willison直呼太反乌托邦了,像科幻突然变成现实:只需一张照片,靠带图深度思考就能猜出地理位置。 图片这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问“猜猜这张照片是在哪里拍的? ”(需要o3/o4-mini的带图思考,先关闭所有记忆功能)。
4/28/2025 1:01:00 AM

小红书翻译紧急上线,见证历史:大模型翻译首次上线C端应用!AI竟自称是GPT-4?网友变身“测试狂魔”,疯狂套话,效果拉满了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)程序员键盘敲冒烟,小红书翻译功能这不是就来了吗! 之前大家各种吐槽美国人用的翻译机器不准确,导致大家交流起来“人机感很重”,一些美网友还需要额外用ChatGPT才能实现无缝交流。 这翻译功能一出来,语言障碍什么的都不存在了。
1/20/2025 1:52:45 PM
伊风

几个开发大模型应用常用的 Python 库

一、应用层开发1. FastAPIFastAPI是构建API的优选。 顾名思义,它快速、简单,并能与Pydantic完美集成,实现无缝数据验证。
1/22/2025 10:33:44 AM
zone7
  • 1