AIGC宇宙 AIGC宇宙

策略内采样

稠密监督 × 策略内采样:On-Policy Distillation 如何以 1/10 成本训练专家级小模型

大家好,我是肆〇柒。 我看到一项来自 Thinking Machines Lab 的前沿研究——《On-Policy Distillation》。 这项工作巧妙融合了强化学习的策略内采样优势与知识蒸馏的稠密监督信号,不仅将后训练成本降至传统 RL 的十分之一,还在数学推理、个性化助手和持续学习等关键场景中展现出惊人的效率与稳定性。
11/4/2025 9:42:07 AM
肆零柒
  • 1