华为多路径推理破解大模型数学瓶颈，准确率超97%｜ICML 2025

大模型越来越大，通用能力越来越强，但一遇到数学、科学、逻辑这类复杂问题，还是常“翻车”。为破解这一痛点，华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林（Forest-of-Thought，FoT）。该方法借鉴人类“多角度思考、反复验证”的认知方式，打破传统LLM的线性推理范式，通过构建多棵并行推理树，引入动态自我修正机制与多视角共识决策策略。

大模型越来越大，通用能力越来越强，但一遇到数学、科学、逻辑这类复杂问题，还是常“翻车”。

为破解这一痛点，华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林（Forest-of-Thought，FoT）。

该方法借鉴人类“多角度思考、反复验证”的认知方式，打破传统LLM的线性推理范式，通过构建多棵并行推理树，引入动态自我修正机制与多视角共识决策策略。

论文将在7月份召开的ICML 2025大会上发表和开源。

在此基础上，FoT在多个数学推理任务中表现突出，进一步展现了FoT相较于ToT（Tree-of-Thought）更优的推理能力。

具体而言，在GSM8K数据集上，结合FoT的QwQ-32B模型准确率高达97.33%，超过了GPT-4o和rStar-Math等先进模型；在更具挑战性的AIME 2024测试中，更是将准确率提升至53.33%，较对比方法rStar-Math高出6.66%。

思维森林：让大模型像人一样“思维分叉+自我反省”

尽管LLM在语言理解、问答等任务中表现出色，但在数学和逻辑等需要多步严谨推理的场景中，仍然存在明显短板：

常陷入“单路径”惯性，缺乏反思与尝试其他思路的能力；
中间步骤易出错，且错误难以自我纠正；
无法有效整合多种解法来做集体判断，缺乏“共识感知”。

思维森林FoT框架的核心灵感来自人类解决复杂问题的过程：头脑风暴 → 多路径探索 → 错误回溯 → 决策投票。

FoT模型在推理时并行构建多棵推理树，每棵树探索一种潜在思路，并引入三个关键机制：

稀疏激活（Sparse Activation）

在传统的多路径推理中，虽然激活所有可能路径可以提升覆盖率，但也带来了指数级的计算开销。

FoT引入了稀疏激活策略，其核心思想是在每一层推理过程中，依据节点输出的置信度进行评分，仅保留得分最高的少量节点用于后续扩展。

该机制显著减少了每层的推理分支数量，提升了每棵推理树的逻辑集中度和计算效率。

动态自校正（Dynamic Self-Correction）

FoT中每棵推理树在成长过程中，具备对自身推理状态的“反省”与“重构”能力。

该模块检测推理路径中可能出现的偏差（回答不断重复等）时自动触发自我反思，提高模型在复杂任务（如数学推导、科学多跳问答）中的鲁棒性。

共识引导决策（Consensus-Guided Evaluation and Decision）

FoT的最终输出不仅依赖于某一条推理路径，而是融合多棵推理树的候选答案，通过集体投票与专家评分机制共同完成决策。具体流程如下：

每棵推理树在独立推理后都会生成一个候选答案。

CGED首先尝试从中识别出多数一致性结果（如超过半数树提出相同答案）。若存在明确的多数共识，则直接采用该答案作为最终输出。

若不存在明显的一致性（如每棵树的结论差异较大），则系统将调用一个预先训练好的LLM专家模型对所有候选答案进行质量评估，从中选择最优解。

该评分模型可基于答案的逻辑连贯性、对问题的契合度、生成路径的可靠性等多维指标综合判断，确保最终输出具备较高的可信度与可解释性。

这一机制有效结合了“集体智慧”与“专家审阅”，提升了模型在不确定场景下的决策稳定性，特别适用于开放式问答、科学推理与法律场景等对输出可靠性要求较高的任务。

实验亮点：比思维树更强、更稳、更聪明

在GSM8K、MATH等经典推理任务中，FoT显示出超越ToT的表现：

在24点游戏任务中，FoT增加树数即可提升14%准确率，明显优于ToT通过叶子节点数量扩展的方式。

在GSM8K数学问答上，FoT与LLaMA3、Mistral、GLM等多个主流开源模型兼容，树数越多，性能提升越明显，呈现全新的推理scaling law曲线。

在MATH数据集全等级上，FoT推理准确率稳定提升，即使面对最复杂的问题也能保持优势。

总结：从更聪明，到更可信

FOT是一种面向大语言模型的推理增强框架，通过引入多路径探索、动态自我校正和共识决策机制，提升模型在复杂任务中的推理准确性、容错性和泛化能力。

不仅如此，该方法旨在缓解传统大模型在高阶推理场景中的局限，为结构化、可解释的推理提供支持，具有在金融风控、法律分析、科研辅助、医疗诊断等领域的应用潜力。

论文链接：https://arxiv.org/abs/2412.09078

项目地址：https://github.com/iamhankai/Forest-of-Thought

华为多路径推理破解大模型数学瓶颈，准确率超97%｜ICML 2025

思维森林：让大模型像人一样“思维分叉+自我反省”

实验亮点：比思维树更强、更稳、更聪明

总结：从更聪明，到更可信

相关资讯

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

腾讯云上线DeepSeek全系API接口并打通联网搜索

微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

华为多路径推理破解大模型数学瓶颈，准确率超97%｜ICML 2025

思维森林：让大模型像人一样“思维分叉+自我反省”

实验亮点：比思维树更强、更稳、更聪明

总结：从更聪明，到更可信

相关资讯

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

腾讯云上线DeepSeek全系API接口并打通联网搜索

微信搜索接入DeepSeek大模型 称AI不会使用朋友圈聊天等信息

微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息