研究揭示通过奖励塑形优化LLM推理效率的两阶段训练机制

发布时间：2026-02-25 11:31

针对大型语言模型链式思考推理带来的高计算开销问题，高效推理研究旨在通过奖励塑形与强化学习，激励模型生成简短而准确的思维轨迹。一篇技术报告对此进行了系统性探讨。

研究首先倡导采用更细粒度的评估指标，包括基于正确性的长度分布以及在广泛令牌预算范围内的性能表现。核心发现揭示了高效推理的训练过程遵循一个两阶段范式：首先是长度适应阶段，模型学习生成更短的思维链；随后是推理精炼阶段，在缩短的轨迹上提升答案准确性。

通过大量实验，研究团队在统一的协议下解构了训练提示、模拟过程、奖励塑形与优化策略。其中一个关键发现是，在相对简单的提示上进行训练至关重要，这能确保正向奖励信号的密度，从而有效避免“长度崩溃”现象，即模型过度缩短思维链导致性能下降。研究还表明，模型学习到的长度偏好具有良好的跨领域泛化能力。

基于所有发现，研究提炼出有价值的见解与实践指南，并在不同规模的模型系列上进行了验证，证明了该方法的鲁棒性与泛化性。这项工作为优化大型语言模型的推理效率提供了系统的机制分析与可行的技术路径。