字节跳动 AdaCoT：基于强化学习的自适应推理触发方法（万字）

大家好，我是肆〇柒。在当下，大型语言模型（LLM）凭借其强大的语言理解和生成能力，在众多领域展现出了巨大的潜力。然而，尽管 LLM 在处理常规任务时表现出色，但在面对复杂推理任务时，却常常暴露出明显的短板。

例如，在解决数学问题时，LLM 需要进行多步逻辑推理和精确的数值计算，但在这一过程中，模型往往会因为逻辑链条的断裂或计算步骤的遗漏而导致错误答案。类似的情况也出现在逻辑推理和创造性写作等任务中。为了克服这一难题，研究者们提出了 Chain-of-Thought（CoT）推理方法。CoT 方法通过引导模型逐步输出中间推理步骤，最终得出答案，从而显著提升了模型在复杂任务中的表现。相关实验表明，在采用 CoT 方法后，LLM 在数学问题求解等复杂任务上的准确率得到了显著提升。

然而，CoT 推理方法并非完美无缺。其主要问题在于，无论查询的复杂程度如何，CoT 都会生成 lengthy 的推理步骤，这导致了巨大的计算成本和低下的运行效率。例如，对于简单的算术问题 “1+1=？” 或者一些简单的事实性查询，CoT 方法依然会启动复杂的推理过程，这无疑是对计算资源的浪费。这种无差别的推理触发机制，使得 LLM 在实际应用场景中面临着巨大的推理成本压力，限制了其在资源敏感型环境下的广泛应用。

针对上述问题，我在浏览论文的时候，发现了字节跳动的一篇关于模型自适应思考的框架，叫 AdaCoT。它通过将自适应推理触发机制与强化学习相结合，实现了在模型性能和 CoT 调用成本之间的有效平衡。AdaCoT 框架的核心思想是根据查询的复杂程度，智能地决定是否启动 CoT 推理过程，从而在保证复杂任务高性能的同时，大幅降低简单查询的推理成本。字节的论文在今年之前很少见到，最近倒是读到好几篇。下面我们一起来看看字节这篇介绍 AdaCoT 的论文都说了什么。

AdaCoT 框架

核心思想与目标定位

AdaCoT 框架的核心思想是将自适应推理触发视为一个多目标优化问题。在这一框架下，模型需要在两个相互竞争的目标之间找到最佳平衡：一是最大化模型性能，即提高对复杂查询的推理准确率；二是最小化 CoT 使用成本，即降低对简单查询的推理资源消耗。为了实现这一目标，AdaCoT 框架采用了 Pareto 优化理论作为其理论基础。

Pareto 优化是一种在多目标优化问题中寻找最优解的方法。在 AdaCoT 框架中，通过构建合适的优化模型，将模型性能和 CoT 使用成本作为两个优化目标，寻求在不同目标之间达到 Pareto 前沿的解决方案。具体来说，AdaCoT 框架通过定义模型性能指标和 CoT 使用成本指标，构建了一个多目标优化函数，并利用强化学习方法来动态调整模型的推理触发决策边界。

AdaCoT 框架的目标是使得模型能够在面对不同复杂程度的查询时，自适应地触发 CoT 推理过程。对于复杂查询，模型将启动详细的推理步骤，以确保准确的答案；而对于简单查询，则直接给出答案，避免不必要的推理开销。通过这种方式，AdaCoT 框架是为了实现模型性能和计算成本之间的最佳平衡，从而提高 LLM 在实际应用中的效率和经济性。

训练流程解析

1. 数据准备与有监督微调（SFT）

在数据准备阶段，AdaCoT 框架采用了一个辅助模型来对训练数据进行标注。这个辅助模型基于一组预定义的原则，如查询复杂性、预期推理深度和领域等，对查询进行评估，判断其是否需要 CoT 推理。具体来说，辅助模型会分析查询的结构、涉及的知识领域、可能的推理步骤等因素，将查询标记为 “需要 CoT 推理” 或 “不需要 CoT 推理”。

例如，对于一个数学方程求解的查询，辅助模型会根据方程的类型、变量数量、运算复杂性等因素，判断其需要多步推理过程，从而标记为 “需要 CoT 推理”。而对于一个简单的事实性查询，如 “谁是美国第一任总统？”，则会被标记为 “不需要 CoT 推理”。

基于这些标注结果，SFT 数据集被构建为两种结构。对于需要 CoT 推理的查询，其对应的响应将包含完整的推理过程，格式为 “think”reasoning_steps”/think”answer”。而对于不需要 CoT 推理的查询，响应则省略了明确的推理过程，格式为 “think”/think”answer”。

SFT 阶段的训练过程类似于传统的监督学习。模型通过学习 SFT 数据集中的输入 - 输出对，初步建立起对 CoT 推理适用场景的认知。这一阶段的训练使模型能够根据输入查询的特征，初步判断是否需要启动 CoT 推理过程，并生成相应的响应格式。SFT 阶段的训练对于模型的性能提升具有基础性作用，它为后续的强化学习阶段提供了良好的初始化。

为了评估 SFT 阶段的训练效果，研究者们采用了一系列评估指标，如准确率、F1 分数、召回率和精确率等。通过在验证集上的测试，可以定量地分析模型在初步 CoT 推理触发决策方面的能力。例如，在某次实验中，经过 SFT 阶段训练后的模型在验证集上的准确率达到 75%，相较于未经过 SFT 训练的模型提升了 15 个百分点。

2. 强化学习（RL）阶段

强化学习阶段是 AdaCoT 框架的核心部分。在这一阶段，模型通过与环境的交互，不断调整其 CoT 推理触发策略，以实现模型性能和 CoT 使用成本之间的最优平衡。

奖励函数是 RL 阶段的关键组成部分。其具体构成如下：

Rbase(x, r) ：这是基础奖励部分，用于衡量模型生成的响应在质量上的优劣。它通常基于一些预定义的评估指标，如响应的准确性、相关性、连贯性等。例如，在数学问题求解任务中，如果模型的最终答案正确，Rbase(x, r) 将获得较高的分数；如果答案错误，则得分较低。具体的计算方法可以表示为：

a.对于数学问题求解任务，Rbase(x, r) = 1（答案正确）或 0（答案错误）。

b. 对于自然语言推理任务，Rbase(x, r) 可以根据语义相似度计算，例如采用余弦相似度衡量模型生成的响应与参考答案之间的语义相似度，相似度越高，Rbase(x, r) 越高。

c.对于创造性写作任务，Rbase(x, r) 可以通过一些文本质量评估指标来确定，如文本的连贯性、丰富度等，采用预训练的质量评估模型进行打分。

Pmiss(x, r) ：这是一个二元惩罚项，用于对模型在需要 CoT 推理时未启动 CoT 推理的情况进行惩罚。当模型面对复杂查询而未能触发 CoT 推理，导致答案错误或质量低下时，Pmiss(x, r) 将对模型进行惩罚，惩罚力度由惩罚系数 α1 控制。例如，若模型对一个需要分步推理的数学问题直接给出了错误答案，则 Pmiss(x, r) = 1，模型将受到惩罚。
Pover(x, r) ：另一个二元惩罚项，用于对模型在不需要 CoT 推理时错误地启动 CoT 推理的情况进行惩罚。当模型对简单查询启动了不必要的 CoT 推理过程时，Pover(x, r) 将发挥作用，惩罚系数为 α2。例如，模型对 “谁是美国第一任总统？” 这类简单事实性查询启动了 CoT 推理，则 Pover(x, r) = 1，模型将受到相应的惩罚。
Pfmt(r) ：用于对响应格式错误的情况进行惩罚。如果模型生成的响应不符合预定义的格式要求，如在需要 CoT 推理时未正确输出推理步骤，或者在不需要 CoT 推理时出现了多余的推理内容，Pfmt(r) 将对模型进行惩罚，惩罚系数为 γ。例如，模型在不需要 CoT 推理时，生成的响应中包含了 “think” 标签内的多余推理内容，则 Pfmt(r) = 1，模型将受到惩罚。

通过调整惩罚系数 α1、α2 和 γ，可以引导模型在不同查询复杂性下探索最优的推理策略。例如，当增加 α1 的值时，模型将更加倾向于启动 CoT 推理过程，以避免因错过 CoT 推理而导致的惩罚；而增加 α2 的值，则会使模型更加谨慎地启动 CoT 推理，避免不必要的推理开销。

在训练过程中，模型通过不断地试错和学习，逐步收敛到 Pareto 前沿的解决方案。具体来说，模型在与环境交互过程中，根据当前的策略生成响应，并计算相应的奖励值。然后，模型根据奖励值对策略进行更新，以期在未来获得更高的累计奖励。这一过程反复进行，直到模型的策略在不同查询复杂性下达到最优平衡。

为了更详细地说明奖励函数的计算方法和模型的决策机制，下面以一个具体的例子进行说明：

假设我们有一个数学问题求解的查询：“已知三角形的三边长分别为 3、4、5，求这个三角形的面积。” 在训练过程中，模型可能会尝试不同的策略：

在某一次尝试中，模型判断这是一个简单查询，直接给出了答案 “6”。此时，模型的响应不符合 CoT 推理的格式要求（未包含推理步骤），但答案是正确的。在这种情况下，Rbase(x, r) = 1（答案正确），Pfmt(r) = 1（格式错误），Pmiss(x, r) = 0（模型未触发 CoT 推理，但答案正确，未造成性能损失），Pover(x, r) = 0（模型未触发 CoT 推理，符合实际情况）。根据奖励函数公式，模型的总奖励值将受到 Pfmt(r) 的惩罚，模型会根据这一惩罚信号调整策略，增加对格式正确性的关注。
在另一次尝试中，模型启动了 CoT 推理过程，逐步计算半周长、应用海伦公式等步骤，最终得出了正确答案。这时，模型的响应符合 CoT 推理的格式要求，Rbase(x, r) = 1（答案正确），Pfmt(r) = 0（格式正确），Pmiss(x, r) = 0（正确触发了 CoT 推理），Pover(x, r) = 0（正确触发了 CoT 推理）。模型获得了较高的总奖励值，从而强化了这一正确的推理触发策略。
在又一次尝试中，模型错误地对一个需要 CoT 推理的复杂查询（如一个需要多步逻辑推理的数学证明问题）未触发 CoT 推理，直接给出了错误答案。此时，Rbase(x, r) = 0（答案错误），Pmiss(x, r) = 1（未触发 CoT 推理导致性能损失），Pfmt(r) = 0（格式符合简单查询的要求），Pover(x, r) = 0（未触发 CoT 推理）。模型的总奖励值较低，模型将根据这一反馈信号调整策略，增加对复杂查询的 CoT 推理触发概率。

通过这种方式，模型逐渐学习到对于不同类型的查询，如何触发 CoT 推理能够获得更高的奖励，从而实现了推理触发策略的优化。

Selective Loss Masking（SLM）技术是 RL 阶段的另一个重要创新。在多阶段 RL 培训过程中，尤其是在处理具有偏斜 CoT 分布的数据集（例如数学数据集，CoT 推理几乎总是有益的）时，模型可能会出现决策边界崩溃的现象。即模型可能会退化为始终启动或始终不启动 CoT 推理的同质化行为，从而失去在早期培训阶段学到的精细决策能力。

SLM 技术通过选择性地屏蔽关键 “决策token” 的损失贡献来解决这一问题。在 RL 训练过程中，当模型的输出接近决策token（即 “think” 标签）时，SLM 会暂时忽略该token的损失计算。具体来说，SLM 通过以下步骤实现：

识别决策token ：在模型生成的响应序列中，定位到表示 CoT 推理开始的 “think” 标签及其对应的结束标签 “/think”。这两个标签之间的内容即为 CoT 推理部分，而 “think” 标签本身是决定是否启动 CoT 推理的关键决策token。
屏蔽损失计算 ：在计算损失函数时，对于决策token “think” 的损失贡献进行屏蔽，即不将其纳入总的损失计算中。这样，模型在训练过程中不会因为单一决策token的错误而受到过大的损失影响，从而能够更好地保持对 CoT 推理触发比率和分布的稳定性。
与模型优化相结合 ：SLM 技术与模型的优化过程紧密结合。在每次迭代更新模型参数时，SLM 确保模型在学习其他部分（如 CoT 推理内容、最终答案等）的同时，不会过度拟合于决策token的预测，从而维持了模型对 CoT 推理触发决策的泛化能力。

例如，在数学问题求解数据集的 RL 训练中，由于大部分查询都需要 CoT 推理，模型可能会倾向于总是启动 CoT 推理。通过应用 SLM 技术，当模型在某些简单查询上错误地启动 CoT 推理时，SLM 会屏蔽这一决策token的损失贡献，使得模型能够有机会调整其策略，而不会因为这一错误决策而导致整个训练过程的偏差过大。实验结果显示，应用 SLM 技术后，模型在保持 CoT 推理触发比率方面表现出显著的稳定性提升，其自适应 CoT 推理触发能力得到了有效增强。

实验评估

实验设置细化

实验所用的 LLM 基础模型是一个内部的 15B/150B 参数的 Mixture-of-Experts（MoE）模型。MoE 模型是一种高效的模型架构，通过在不同的输入数据上激活不同的专家网络，从而在保持模型性能的同时降低了计算成本。该模型具有大规模的参数量，能够捕捉复杂的语言模式和语义信息，为 AdaCoT 框架的实现提供了强大的基础支持。

SFT 和 RL 训练数据集的构建过程经过精心设计，以确保数据的多样性和代表性。数据来源广泛涵盖了多个领域，包括数学、推理、专业学科（如法律、医学）、对话、创造性写作和一般知识问答等。这种广泛的领域覆盖确保了模型能够学习到不同类型任务的特征和需求，从而在实际应用中具有更好的适应性。

在数据集的构建过程中，研究者们采用了原则引导的评估方法对 CoT 必要性进行标注。具体来说，对于每个查询，辅助模型根据预定义的原则（如查询复杂性、预期推理深度、领域等）进行评估，判断其是否需要 CoT 推理。在 SFT 数据集的标注过程中，大约 67% 的样本被标记为需要 CoT 推理，而在 RL 数据集中，这一比例约为 40%。这种标注比例反映了不同数据集在查询复杂性分布上的差异，同时也为模型在不同阶段的训练提供了合适的指导。

实验评估涉及到 15 个开源基准数据集，这些数据集在特性和评估指标上各具特色。例如，MMLU-Pro 数据集是一个增强版的多任务语言理解基准测试，专注于复杂推理问题；SuperGPQA 数据集则涵盖了 285 个研究生学科的知识和推理能力评估；还有 AIME24 & AIME25 数据集，用于评估数学推理和问题解决能力。这些数据集从不同角度对模型的性能进行了全面的测试，确保了评估结果的可靠性和有效性。

此外，研究者们还精心创建了一个包含 1000 个日常使用提示的测试集。这些提示涵盖了各种类型的查询，从简单事实性问题到复杂推理任务，具有广泛的难度分布。为了确保标注的准确性，这些提示的标注结果经过了人工验证。通过这种方式，研究者们构建了一个高质量的测试集，用于评估模型在实际应用场景中的自适应 CoT 推理触发性能。

Pareto 前沿深度分析

在 15 个基准数据集上的实验结果显示，AdaCoT RL 模型变体（Exp1-Exp4）在平均得分与 CoT 触发率的关系曲线上，形成了明显的改进 Pareto 前沿。与基线模型相比，AdaCoT 模型在不同的惩罚系数设置下，实现了性能和 CoT 成本之间的有效权衡。

例如，AdaCoT RL Exp2 模型在 53.3% 的 CoT 触发率下，达到了 62.8% 的平均得分，接近全 CoT RL 基线模型（100% CoT 触发率，65.0% 平均得分）的性能。这表明 AdaCoT 模型能够在大幅降低 CoT 使用成本的同时，保持较高的模型性能。而 AdaCoT RL Exp4 模型在 67.7% 的 CoT 触发率下，平均得分达到了 64.4%，进一步缩小了与全 CoT RL 基线模型的差距。

通过对比不同模型的性能表现，我们可以更深入地理解 AdaCoT 模型在不同 CoT 触发率下的性能变化趋势。例如，随着 CoT 触发率的增加，模型的平均得分逐渐提高，但提高的幅度逐渐减小。这表明在一定范围内，增加 CoT 的使用能够显著提升模型性能，但超过某一阈值后，继续增加 CoT 使用带来的性能提升有限。同时，与基线模型相比，AdaCoT 模型在大多数情况下都能以更低的 CoT 触发率实现相近甚至更高的性能，充分展示了其在性能和成本之间权衡的优势。

平均分数与15个广泛采用的基准测试中的CoT触发率对比

在此过程中绘制的模型性能与 CoT 触发率关系图如上图所示，不同模型在图中的位置直观地体现了它们在性能和成本之间的平衡状态。蓝色点代表基线模型，绿色点代表 AdaCoT SFT 模型，橙色点代表 AdaCoT RL 模型，橙色虚线和阴影区域展示了相比基线改进的 Pareto 前沿，虚线连接了无 CoT RL 基线和全 CoT RL 基线，描绘了一个更简单的权衡曲线。这一图形化展示有助于读者迅速把握 AdaCoT 框架相较于传统方法在多目标优化上的优势，明晰其在不同触发率下性能的相对位置及改进幅度。

自适应 CoT 触发性能评估

基于日常使用提示测试集的实验结果，AdaCoT 模型在不同训练阶段的自适应 CoT 触发性能得到了全面评估。在 SFT 阶段，模型的 CoT 触发准确性达到了 79.5%，F1 分数为 75.0%，召回率为 61.6%，精确率为 95.9%。这些结果表明，经过 SFT 阶段的训练，模型已经具备了一定的自适应 CoT 触发能力，能够在大多数情况下正确判断是否需要启动 CoT 推理过程。

在 RL-Math 阶段，未应用 SLM 技术时，模型的性能出现了显著的退化。其 CoT 触发准确性仅为 50.6%，F1 分数为 66.9%，召回率为 1.0，精确率为 0.503。这表明模型在这一阶段几乎总是启动 CoT 推理过程，导致了大量的误触发。然而，当应用 SLM 技术后，模型的性能得到了显著提升。CoT 触发准确性提高到了 81.3%，F1 分数为 78.1%，召回率为 0.670，精确率为 0.938。这一结果充分证明了 SLM 技术在稳定模型自适应触发能力方面的重要作用。

在 RL-General 阶段，通过调整惩罚系数 α1 和 α2，模型的决策边界得到了进一步优化。例如，AdaCoT RL Model Exp2 在这一阶段的 CoT 触发准确性达到了 81.6%，F1 分数为 81.4%，召回率为 0.804，精确率为 0.823。这些结果表明，经过 RL-General 阶段的训练，模型能够在更广泛的查询类型上实现精确的 CoT 推理触发决策。

不同AdaCoT阶段和配置在1000个日常使用提示测试集上的CoT触发表现（正类：需要CoT）。RL-Math是数学专项强化学习阶段；RL-General指的是最终模型

上表展示了不同 AdaCoT 阶段和配置在 1000 个日常使用提示测试集上的 CoT 触发性能，其中阳性类别表示需要 CoT。从表中可以看出，随着训练的推进和 SLM 技术的应用，模型的性能指标呈现出逐步提升的趋势，尤其在 RL-General 阶段，各模型的准确率、F1 分数等关键指标均达到了较高水平，直观地反映了模型自适应 CoT 触发能力的不断增强过程，为读者提供了详细的性能对比数据，有助于深入理解 AdaCoT 框架在不同训练阶段的优化效果及最终的性能表现。

元推理策略在 SFT 阶段的应用也取得了显著的效果。通过在 SFT 阶段引入元推理机制，模型的 F1 分数从 0.750 提高到了 0.840。这一提升表明，元推理策略能够增强模型对查询复杂性的评估能力，从而优化 CoT 推理触发决策。例如，在面对复杂查询时，模型能够更加准确地识别其复杂性，及时启动 CoT 推理过程；而在面对简单查询时，模型则能够更加自信地直接给出答案，避免不必要的推理开销。

包含明确元推理（meta-reasoning）以用于因果链（Chain of Thought，CoT）决策的示例回答结构

上图展示了包含显式元推理的响应结构示例，这种结构使模型能够先对查询复杂性进行自我评估，再决定是否进行详细推理。例如，对于复杂查询，模型先输出 “这是一个相对复杂的问题，我需要仔细思考”，随后展开正式的 CoT 推理；而对于简单查询，则直接判断 “这是一个简单问题，可以直接作答”，然后给出答案。这种响应结构的可视化呈现，有助于读者直观地理解元推理在实际推理决策中的应用方式，清晰地展现了模型如何通过元推理来控制 CoT 的触发，进一步提升了文章的可读性和技术细节的透明度。

响应长度减少与效率提升量化分析

在生产流量测试集上的实验结果进一步展示了 AdaCoT 模型在实际应用场景中的效率提升效果。以移动设备为例，AdaCoT RL Model Exp2 的平均响应token数为 116.70，相较于全 CoT RL 基线模型的 377.18，减少了 69.1%。同时，CoT 触发率也从 100% 降低到了 3.18%。在 PC 端，AdaCoT RL Model Exp2 的平均响应token数为 405.25，相较于全 CoT RL 基线模型的 1376.31，减少了 70.6%，CoT 触发率降低到了 12.50%。

在生产流量测试集上，AdaCoT RL模型Exp2与完整CoT RL基线的平均响应token数（标注了减少量）和CoT触发率对比

上表直观地呈现了 AdaCoT RL Model Exp2 与全 CoT RL 基线模型在生产流量测试集上的平均响应token数及 CoT 触发率对比情况。通过具体数据的比较，读者可以清晰地看到 AdaCoT 模型在实际应用中带来的显著效率提升和成本降低效果。这对于关注模型部署和运营成本的读者来说，提供了有力的数据支持，增强了文章的说服力和实用性。

这种显著的响应长度减少和 CoT 触发率降低，直接转化为计算成本的大幅降低和系统效率的显著提升。例如，对于一个拥有大量用户的移动应用来说，采用 AdaCoT 模型后，服务器的计算负载将大幅减轻，响应时间也将显著缩短。这不仅能够降低运营成本，还能够提升用户体验，使应用在市场中更具竞争力。

讨论与未来工作

设计考量与局限性深度剖析

AdaCoT 框架的设计理念是在模型性能和推理效率之间实现平衡。通过结合原则引导的初始数据标注与基于 RL 的 CoT 决策边界优化，AdaCoT 能够根据查询的复杂程度智能地调整 CoT 推理的触发策略。这种设计使得 AdaCoT 框架在保证复杂任务高性能的同时，大幅降低了简单查询的推理成本，从而在整体上提高了 LLM 的效率和经济性。

然而，AdaCoT 框架也存在一些局限性。首先，其对不同 LLM 的适配性是一个需要考虑的问题。由于不同 LLM 的架构、参数规模和性能特点存在差异，AdaCoT 框架在应用于不同的 LLM 时，可能需要进行相应的调整和优化。例如，对于一些较小的 LLM，其计算资源有限，可能需要简化 AdaCoT 的训练流程，如减少 SFT 和 RL 阶段的训练数据量、降低模型的参数更新频率等，以适应其有限的计算资源。同时，不同 LLM 的架构差异也会影响 AdaCoT 框架的适配性。例如，基于 Transformer 的 LLM 和基于 RNN 的 LLM 在处理序列数据和生成响应方面存在差异，这可能导致 AdaCoT 框架在不同架构的 LLM 上的表现不同。针对这一问题，可以采用模型架构转换方法，将 AdaCoT 框架的关键组件（如 CoT 触发决策模块）适配到不同架构的 LLM 中，或者设计可调整的训练超参数，使框架能够根据不同 LLM 的特点进行自适应调整。

其次，AdaCoT 框架目前采用的是二元 CoT 调用机制，即 CoT 推理要么完全启动，要么完全不启动。这种简化方式虽然在一定程度上降低了模型的复杂性，但也限制了对推理深度和风格的精细化控制。在实际应用中，不同的查询可能需要不同程度的推理深度，而 AdaCoT 框架的二元机制无法满足这一需求。为了解决这一问题，可以引入多级 CoT 调用阈值，根据查询的复杂程度动态调整 CoT 推理的深度。例如，对于中等复杂度的查询，可以启动部分推理步骤，而不是完全启动或关闭 CoT 推理。此外，还可以采用基于连续推理深度的调整策略，通过构建一个连续的推理深度控制机制，使模型能够根据查询的复杂性连续地调整推理深度。这些改进方法虽然在实现上具有一定的可行性，但也面临着一些挑战，如如何确定多级阈值的具体设置，如何设计连续推理深度控制机制以确保模型的稳定性和性能等。

此外，领域泛化也是一个挑战。不同知识领域的查询具有不同的特征和推理需求，而 AdaCoT 框架目前在跨领域适应性方面还有待提高。例如，在法律领域和医学领域的查询可能需要不同的推理策略和知识背景，AdaCoT 框架需要进一步优化以更好地适应不同领域的查询特点。为了提高领域泛化能力，可以采用领域自适应算法，如在训练数据中增加不同领域的样本比例，设计领域特定的特征提取模块等，使模型能够更好地捕捉不同领域的查询特征和推理需求。同时，还可以引入领域专家知识，通过与领域专家合作，对模型的 CoT 推理触发策略进行领域特定的优化，从而提升模型在不同领域的适应性。

最后，AdaCoT 框架缺乏对用户对模型冗长偏好个性化的需求满足。不同的用户可能对模型的回答风格和详细程度有不同的偏好，而 AdaCoT 框架目前无法根据用户的个性化需求动态调整 CoT 推理的触发策略。这在一定程度上影响了用户体验和模型的适用范围。为了解决这一问题，可以开发用户偏好自定义功能，通过收集用户的反馈信息（如用户对模型回答的满意度评价、用户对回答风格的偏好设置等），构建用户偏好模型。然后，将用户偏好模型与 AdaCoT 框架相结合，使模型能够根据用户的个性化需求动态调整 CoT 推理的触发方式和推理深度，从而提升用户体验。

详细基准数据集的分数。“TR”表示推理触发率（%）

上表列出了各基准数据集上的详细测试成绩，其中 “TR” 表示推理触发率。这些数据涵盖了不同领域的测试结果，包括数学、常识问答、专业学科等多个方面，反映了 AdaCoT 模型在各类任务中的性能表现及推理触发频率。通过该表格，读者可以详细了解模型在各个具体数据集上的得分情况，深入分析其优势领域和待提升方向，为后续研究提供了丰富的数据基础和改进参考，有助于全面评估 AdaCoT 框架的实际应用价值和广泛适用性。

元推理在推理决策中的应用案例分析

元推理策略在推理决策中的应用为 AdaCoT 框架带来了显著的优势。以下是一些具体的实际问答场景案例分析：

案例 1：历史创意问题

原始问题：“玄武门之变的夜晚，李世民独自一人会写些什么？”

模型在接收到这一问题后，首先通过元推理机制快速评估查询的复杂性。它识别到这是一个涉及历史背景、人物心理和创意写作的复杂问题。因此，模型决定启动 CoT 推理过程，逐步展开对历史背景的分析、人物心理的揣摩以及可能的写作内容的构思。最终，模型生成了一段详细而富有创意的回答，既体现了李世民作为政治家的果断与谋略，又展现了其作为普通人内心的矛盾与不安。

修改后的问题：“直接作答，无需深入思考：玄武门之变的夜晚，李世民独自一人会写些什么？”

在这一问题中，用户明确要求模型无需进行深入思考。模型通过元推理机制识别到这一指令，判断查询的复杂性较低，因此决定不启动 CoT 推理过程。模型直接根据已有的知识和创意模板，生成了一段简洁的回答，满足了用户对简短答案的需求。

案例 2：事实性问题

原始问题：“世界上最高的山峰是哪座？”

模型在接收到这一问题后，通过元推理机制迅速判断这是一个简单的事实性问题。它直接从知识库中检索相关信息，无需启动 CoT 推理过程，快速生成了准确的答案：“世界上最高的山峰是珠穆朗玛峰，海拔高度为 8848.86 米。”

修改后的问题：“经过仔细思考后回答：世界上最高的山峰是哪座？”

尽管用户要求经过仔细思考，但模型通过元推理机制识别到这一问题的本质仍然是一个简单的事实性查询。为了满足用户对思考过程的要求，模型在回答中加入了对不同衡量标准（如海拔高度、从基底到山顶的高度等）的简要说明，同时强调了在常规地理语境下，珠穆朗玛峰被公认为世界最高峰。通过这种方式，模型在满足用户需求的同时，避免了不必要的复杂推理过程。

保留值性能的实验验证与分析

通过系统提示（SPs）控制 AdaCoT 的 CoT 推理触发行为，研究者们在多个基准数据集上进行了实验验证。实验结果显示，当明确要求模型始终启动 CoT 推理时，AdaCoT 模型的平均得分与专门的始终开启 CoT 模型相当，甚至在某些情况下略有超越。

例如，在 AIME24 数据集上，AdaCoT RL Model Exp3 在始终开启 CoT 推理的情况下，平均得分为 88.0，超过了全 CoT RL 基线模型的 84.7。在 AIME25 数据集上，AdaCoT RL Model Exp2 的平均得分为 75.7，同样超过了全 CoT RL 基线模型的 70.0。

在“始终推理”系统提示与完整CoT强化学习基线模型下，AdaCoT强化学习模型的表现，展现了峰值性能的保持。这些指标是在15个基准数据集上平均得出的

上表展示了在 “始终推理” 系统提示下 AdaCoT RL 模型相较于全 CoT RL 基线的性能表现，指标为 15 个基准数据集上的平均得分。从表中可以看出，多数模型在此提示下的平均得分接近甚至超过基线模型，有力地证明了 AdaCoT 框架在确保模型峰值推理能力方面的有效性，即使在自适应触发模式下，也能通过特定系统提示恢复至与始终开启 CoT 相当的性能水平，为读者提供了明确的数据支持，增强了对 AdaCoT 框架在关键场景下性能保障能力的信心。

这些结果表明，AdaCoT 框架在明确要求全面推理时，能够保留峰值推理能力。这主要得益于 AdaCoT 在训练过程中采用的多样化数据和优化策略。通过在训练数据中包含非 CoT 示例，模型在学习过程中不仅能够优化 CoT 推理的触发策略，还能够提升其对复杂推理任务的处理能力。同时，强化学习的优化机制使得模型能够在不同的推理需求下，灵活调整其推理策略，从而在保证简单查询高效处理的同时，保持对复杂任务的高性能表现。

总结、展望

通过了解 AdaCoT 框架，我认识到 AdaCoT 框架通过将自适应推理触发机制与强化学习相结合，巧妙地解决了大型语言模型（LLM）在复杂推理任务中面临的高成本和低效率问题。它不仅在理论上构建了一个多目标优化的解决方案，更在实践中通过大量实验验证了其有效性。

从技术层面来看，AdaCoT 的核心思想是根据查询的复杂程度智能地决定是否启动 CoT 推理过程。这种自适应的触发机制在保证复杂任务高性能的同时，显著降低了简单查询的推理成本。通过 Pareto 优化理论和强化学习方法的结合，AdaCoT 框架能够在模型性能和 CoT 使用成本之间实现最佳平衡。实验结果表明，AdaCoT 模型在多个基准数据集上的性能表现优异，同时大幅减少了 CoT 的使用频率，降低了计算成本。

在了解这个AdaCoT 框架的过程中，它具有一些亮点特性。它将模型性能和 CoT 使用成本这两个相互竞争的目标整合到一个多目标优化框架中，并利用强化学习动态调整决策边界。这种设计不仅展现了研究者对问题的深刻洞察，也体现了他们在技术创新上的能力。此外，Selective Loss Masking（SLM）技术的引入，有效解决了决策边界崩溃的问题，进一步增强了模型的稳定性和性能。

通过对实验数据和图表的观察，我直观地感受到了 AdaCoT 框架的优势。例如，在 Pareto 前沿分析中，AdaCoT 模型在不同 CoT 触发率下的性能表现明显优于基线模型，展示了其在性能和成本之间权衡的有效性。同时，响应长度减少与效率提升的量化分析也让我看到了 AdaCoT 框架在实际应用中的巨大潜力。它不仅降低了计算成本，还显著缩短了响应时间，提升了用户体验。

当然，AdaCoT 框架也存在一些局限性。如何提高其对不同 LLM 的适配性、探索更精细的 CoT 调用机制、加强领域泛化能力以及满足用户个性化需求，这些都是需要解决的问题。例如，引入多级 CoT 调用阈值、采用领域自适应算法、开发用户偏好自定义功能等方法，有望进一步提升 AdaCoT 框架的性能和适用性。

总体来看，AdaCoT 框架的研究让我在技术层面和研究方法上都受益匪浅。关于自适应思考的文章，之前已发了两篇，大家可以选择对比着来看。它们分别是《AdaptThink：推理模型的自适应思考范式》和《Thinkless框架：让LLM学会“聪明偷懒”的智慧》。各位，看过此文有什么感想？如有其他想法可以在评论区留言，我们聊聊。或者加入“觉察流”社区群，与群里的小伙伴一起学习、交流。加入方法，私信回复“入群”“加群”即可。

如果你对“模型训练”相关话题感兴趣，可以点击订阅👉“模型训练”主题。

参考资料

AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learninghttps://arxiv.org/pdf/2505.11896

#AI论文 #觉察流 #模型训练 #AdaCoT #自适应推理 #强化学习 #推理效率优化 #RL #监督微调 #SFT

关联阅读

◆Thinkless框架：让LLM学会“聪明偷懒”的智慧

◆🔥Anthropic 发布 Claude 4：为开发者带来的全新编程体验与机遇

◆AdaptThink：推理模型的自适应思考范式

◆🔥LLM 协作革命：Group Think 如何重塑推理边界 (万字)

◆🔥系统提示(Prompt)优化：基于元学习的双层优化框架（万字）

◆🔥并行扩展（Parallel Scaling）：一种新型语言模型扩展范式（万字）

◆Qwen3：开源 LLM 的革新者与多语言先锋（万字）

◆Windsurf 发 SWE-1：以数据+智能飞轮驱动软件工程 AI 进化

◆🔥多模态推理模型（LMRM）：从感知到推理的演变（2万字综述）

◆智能体式推理与工具集成：ARTIST 基于强化学习的新思路（万字）

◆Self-Play Critic：以“对抗博弈”创新大语言模型推理评估（万字）

◆解锁大模型推理新潜能：重复采样的魔力

◆交互式生成视频（IGV）：重塑游戏、智能与驾驶的交互革命（二万字长文）

◆DeepSeek-R1 百天：推理语言模型（RLM）的复现与创新（万字长文）

◆LLM 推理新境界：多语言思考的力量

◆AI 社会中的共识：语言理解能力如何塑造 AI 的群体决策？

◆深度解析与精准评估：OmniDocBench的创新之旅

◆🔥LLM 微调的学习动力学：幻觉、挤压与优化的艺术（万字长文，实战解读）

◆RLHF - 基于人类反馈的强化学习：语言模型的进化引擎

◆🔥深入探索 GPT-4o：图像生成的多面手（3万字综述）

◆🔥OpenAI发布：企业AI落地指南——应用场景识别与规模化应用策略

◆OpenAI 发布：构建 AI Agent 实用指南

◆🔥OpenAI 发布企业 AI 集成技术手册：从评估到自动化

◆🔥AI 的下半场：从解决问题到定义问题

◆微软 BitNet b1.58 2B4T：低比特效率革命，让模型在边缘设备 “飞” 起来

◆SQL-R1-7B：用强化学习优化复杂SQL查询，性能比肩32B模型

◆🔥DeepSeek-R1：如何让AI像人类一样“深度思考”？(综述)

◆🔥AI 有病！技术的缺陷？还是人性的弱点？

◆🔥Reason Model 的“瘦身计划”：量化技术的得与失

◆🔥GLM-4 开源32B推理模型，OpenAI 发布 GPT-4.1

◆AI 的经济性格：litmus 测试揭示 AI 的选择倾向

◆🔥多模态 InternVL3 发布：从1B到78B多尺寸SOTA

◆AI如何读懂角色的内心？《冰与火之歌》揭示新路径

◆AI的“读心术”：动态用户画像如何改变人机交互？

◆🔥反认知！Scaling Law被质疑，图搜索熵揭示LLM推理能力并非参数越大越好

◆RARE：让 AI 模型从死记硬背进化到聪明推理

◆AI的“内心独白”为何不可靠？Anthropic论文揭示CoT监控的局限性

◆Thinking Intervention：掌控 AI 思考推理的新范式

◆ReSearch 框架：让 AI 像人类一样边思考边搜索

◆🔥Llama 4 发布：10M 长上下文,MOE,多模态,2 万亿总参数 SOTA 是亮点

◆SICOG：让多模态模型学会 “观察” 和 “思考”

◆Claude 3.7 Sonnet：AI 如何重塑劳动市场与经济格局

◆全模态的突破：Qwen2.5-Omni-7B技术报告

◆生成式检索的幻觉难题，看看支付宝的方案

◆Claude：AI 如何用“通用语言”思考、规划和计算？

◆🚀重磅！千问体验站即将接入 MCP！Anthropic 疑将发 500K 上下文 Claude Sonnet3.7 ？

◆🔥DeepSeek“鲶鱼”：混元-T1正式亮相, Qwen3近在咫尺, GPT-5将免费

◆OpenAI 发布新一代音频模型

◆STEVE：让 AI 更智能地操控图形界面

◆MCoT：让机器像人类一样思考 (综述)

◆CompassJudger-1：AI模型Judger的全栈解决方案（万字长文）

◆SEAP剪枝：让大型语言模型在效率与性能间找到完美平衡

◆🩺AI在医疗领域的深度探索：Baichuan-M1的实践与展望

◆🤖AgiBot World：智元通用具身基座模型，为机器人通用智能按下“快进键”

◆🇺🇳多语言模型的“语言孤岛”：跨语言知识转移的真相

◆🔥QwQ-32B比肩671B的DeepSeek-R1，全球首发通用 AI Agent

◆❄️QASnowball：用“迭代雪球”打破问答数据困境-问答数据合成

◆长文本 Prompt 中的语言模型：真的能有效利用所有信息吗？

◆AI提示词工程：如何让机器更懂你？预警1.3万字长文

◆🏃LoRA 微调：如何在不损害 LLM 的情况下添加新知识

◆LLaDA：打破自回归模型垄断的全新语言模型

◆🔥Inception Labs 推出 Mercury：语言模型的新突破——Diffusion LLM

◆1B LLM 超越 405B LLM？这项研究揭示了什么

◆🚀标点符号的隐藏力量：揭秘 AI 模型中的上下文记忆

◆🔥EasyR1：多模态强化学习训练的高效框架

◆Themis：如何用 AI 评估 AI ？

◆🔥R1-V ：用低成本强化学习，让视觉语言模型实现超强泛化

◆🔥强化学习 (RL) 与监督微调 (SFT)：谁更能提升模型泛化能力？

◆ DeepSeek 等模型训练所依赖的合成数据，BARE 提出了新思路

◆🔥Open-R1：深度揭秘 DeepSeek-R1 开源复现进展

◆Satori带来COAT：解锁LLM自省推理潜能，告别Deepseek教师模型

◆🔥AI学会自我反思？Agent-R 使用蒙特卡洛树搜索(MCTS)自我训练自动纠错，让AI更聪明

◆CoRAG：RAG 模型的新思路，多跳问答性能显著提升

◆Satori 带来 COAT：解锁LLM自省推理潜能，告别Deepseek教师模型

◆🔧十大LLM基准测评：助力AI团队选型与研发

◆Meta 隐秘的 AI 训练数据获取：81.7TB 盗版书籍背后的真相

◆🔥AI 训练新风向： FP4 量化赋能大型语言模型训练，打破算力瓶颈

◆微调重排序（reranker）模型：让 AI 更懂你的需求

◆不要过多思考 2+3=？关于o1类LLMs的过度思考【论文】

◆🔥AI的“人味儿”从何而来？DPO和LoRA打造更拟人化的AI

字节跳动 AdaCoT：基于强化学习的自适应推理触发方法（万字）

相关工作回顾

CoT 推理的发展历程

现有 CoT 优化方法的局限性剖析

AdaCoT 框架

核心思想与目标定位

训练流程解析

1. 数据准备与有监督微调（SFT）

2. 强化学习（RL）阶段

实验评估

实验设置细化

Pareto 前沿深度分析

自适应 CoT 触发性能评估

响应长度减少与效率提升量化分析

讨论与未来工作

设计考量与局限性深度剖析

元推理在推理决策中的应用案例分析

案例 1：历史创意问题

案例 2：事实性问题

保留值性能的实验验证与分析

总结、展望

相关资讯

MCP 协议深度解读：技术创新正以前所未有的速度突破

零基础也能看懂的ChatGPT等大模型入门解析！

麻省理工科技评论：2025年AI五大趋势