AIGC宇宙 AIGC宇宙

苹果研究揭示AI“假性思考”真相:推理模型在复杂任务下反而崩溃

一项由苹果研究人员主导的新研究,对当前被寄予厚望的大型推理模型(LRM)泼了一盆冷水。 研究发现,在解决复杂任务时,像 Claude3.7Thinking 和 Deepseek-R1等专为“模拟思维过程”设计的推理模型,不仅未能展现出优势,反而出现“思考不足”、性能崩溃等严重问题。 这项研究测试了四种经典逻辑谜题:汉诺塔、跳棋、渡河与积木世界。

一项由苹果研究人员主导的新研究,对当前被寄予厚望的大型推理模型(LRM)泼了一盆冷水。

研究发现,在解决复杂任务时,像 Claude3.7Thinking 和 Deepseek-R1等专为“模拟思维过程”设计的推理模型,不仅未能展现出优势,反而出现“思考不足”、性能崩溃等严重问题。

QQ20250609-091807.png

这项研究测试了四种经典逻辑谜题:汉诺塔、跳棋、渡河与积木世界。这些谜题允许精确控制任务复杂度,是衡量语言模型推理能力的理想场景。结果显示,标准 LLM 在简单任务中准确率更高且效率更高,而当复杂度升高,推理模型虽表现稍有提升,但最终同样在高复杂度下全面崩溃。

更令人意外的是,这些模型在面对最复杂任务时,不仅准确率下降为零,反而使用了更少的推理标记(tokens)。换句话说,它们“思考”的意愿和能力反而降低了。

QQ20250609-091816.png

研究团队绘制了模型在不同复杂度下的推理轨迹,揭示了两种典型失败模式:过度思考:在简单问题中,模型找到答案后仍持续生成错误备选方案;思考崩溃:在高复杂度问题中,推理过程戛然而止,连尝试路径都无法生成。

虽然推理模型借助“思路链”“自我反思”等机制被认为是通往通用人工智能(AGI)的一步,但苹果的研究指出:这些机制在扩展性上存在根本缺陷,目前的推理模型无法制定出具备通用性的策略,其“思考”更多是统计上的生成,而非真正的逻辑演绎。

QQ20250609-091824.png

研究还发现,不同谜题的表现也与训练数据相关。例如,出现在训练数据中较多的“汉诺塔”任务,其准确率普遍高于复杂度相似但数据稀少的“渡河”任务。这凸显了当前模型对训练分布的高度依赖性。

苹果研究人员最终指出:“当前推理模型的‘思维能力’存在与问题复杂度相对的不对称扩展性,在结构上无法支撑高阶任务的解决。”他们建议,对推理模型的核心设计原则应进行重新思考。

这一发现对行业影响深远。随着 AI 模型规模扩展收益趋于饱和,推理能力被视为通向下一阶段 AI 革命的关键,包括 OpenAI 在内的多家头部企业均在此方向押下重注。如今,这项研究提醒人们:在走向真正“理解”和“推理”的路上,AI 仍面临根本性的技术挑战。

相关资讯

OpenAI收购Windsurf,Claude访问受限引开发者不满

近日,OpenAI已完成对热门氛围编码初创公司 Windsurf 的收购。 然而,就在这一消息公布之际,Windsurf 却遭遇了一场突如其来的合作“断崖”——AI巨头 Anthropic 大幅削减了对 Windsurf 的 Claude3.7Sonnet 和 Claude3.5Sonnet 模型的第一方访问权限,且几乎未提前通知。 Windsurf CEO Varun Mohan 在 X 平台上公开表示,团队对此决定深感“失望”,并强调曾明确表达愿意全额付费使用 Claude 模型。
6/4/2025 11:00:54 AM
AI在线

比 ChatGPT4 还强?深度测评最新AI神器 Claude3

Claude3,正式上线。 这个由 OpenAI 分裂出去的兄弟公司 Anthropic,在悄然无息之间,就这么默默地把 Claude3 发了。 没有所谓的发布会,没有什么华丽的舆论,就仅仅在 X 上发了个帖子。我发现现在的这些 AI 公司真挺有意思,都把 X 当成发布主阵地了。。。 字很少,但是事挺大。一口气发了 3 个模型,Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。 这个名字就取的...很有故事。 Opus 大概意思就是史诗级乐章,牛逼上天那种。 Sonnet
3/17/2024 8:11:25 AM

苹果CEO库克称赞DeepSeek:当然用过 很棒

中国发展高层论坛2025年年会在北京盛大召开,吸引了全球众多知名企业代表前来参与。 苹果CEO蒂姆·库克、三星电子会长李在镕、高通CEO克里斯蒂亚诺·安蒙以及SK海力士CEO郭鲁正等跨国企业领袖均现身此次论坛。 在论坛开幕式上,库克成为了媒体关注的焦点。
3/23/2025 11:00:47 AM
AI在线
  • 1