在大语言模型向专业领域应用拓展的背景下,运筹优化成为一个极具吸引力与挑战性的方向。真实运筹建模高度依赖变量、约束与目标函数间的整体一致性,其推理过程具有强步骤依赖和强耦合特征。当前研究面临核心困境:模型得到正确求解结果,并不等同于完成了正确的建模。现有训练范式,无论是仅奖励最终结果,还是进行局部过程监督,都难以准确评估长链条推理任务的质量,导致建模错误可能被掩盖甚至强化。
针对此问题,上海交通大学智能计算研究院研究团队提出了StepORLM框架。该框架未从扩大模型规模或数据量入手,而是从训练范式本身进行系统性反思,提出了一种由策略模型与生成式过程奖励模型协同进化的自进化训练框架。其核心在于将最终求解结果与对完整推理过程的回顾式、全局评估相结合,旨在引导模型学习构建一致、可靠的运筹优化模型。
研究在多个运筹优化基准数据集上进行了系统测试。实验采用严格的Pass@1准确率作为评价指标,要求模型生成的代码能成功执行、建模过程正确且结果被求解器判定为可行最优。结果显示,仅有较小参数规模的StepORLM在平均准确率上超过了某些参数规模大得多的通用大模型,并在高难度场景中优势突出。这表明在运筹建模任务中,训练范式与监督信号设计已成为性能提升的关键。
与现有专门微调的模型相比,StepORLM在所有基准数据集上均取得更优结果,在多步骤推理任务中提升明显,说明其性能增益主要得益于更高质量、更符合任务本质的监督信号。此外,与多种需要在推理阶段进行修正的智能体方法相比,StepORLM通过单次生成就能取得更稳定的表现,因其在训练阶段引入了过程级监督,从根源上减少了错误推理路径被强化的可能性。
研究还评估了将生成式过程奖励模型引入推理阶段作为验证器的效果,结果显示其能带来显著的性能提升。该奖励模型学到的似乎是模型无关的运筹推理判据,因其与其他运筹优化模型结合时也能带来性能提升。消融实验验证了框架中各关键组件的必要性。
这项研究指出,现有方法主要存在两类缺陷:一是结果导向奖励的信用分配问题,可能强化包含错误中间过程的成功结果;二是传统过程监督的短视性,难以理解步骤间的依赖关系。StepORLM框架采用“两阶段训练+自进化闭环”的设计。第一阶段通过监督微调构建具备基本能力的初始策略模型。第二阶段是核心创新,策略模型与生成式过程奖励模型协同进化,后者能从全局视角对整条推理过程进行回顾式评估。通过双源反馈机制和加权的偏好优化方法,两个模型在正反馈闭环中持续提升能力。
该研究在方法论上强调,在强步骤依赖任务中,缺乏推理能力的奖励模型难以提供有效监督。其提出的整体化、回顾式过程监督思想,对数学证明、代码生成等其他长链条复杂推理任务也具有启发意义,为解决监督信号失真问题提供了一种普适性思路。



