在利用带验证器的强化学习改进大语言模型推理的过程中,现有方法常面临探索受限的挑战。策略容易坍缩到少数几种推理模式,并过早停止深度探索。传统的熵正则化仅引入局部随机性,无法产生有意义的路径级多样性,导致基于群体的策略优化信号弱且不稳定。
DSDR(双尺度多样性正则化)框架将大语言模型推理的多样性分解为全局和耦合两个组成部分。在全局层面,DSDR促进正确推理轨迹之间的多样性,以探索不同的解决方案模式。在局部层面,它应用一种长度不变、仅限于正确轨迹的词元级熵正则化,防止每种模式内部的熵坍缩,同时保持正确性。
两个尺度通过一个全局到局部的分配机制进行耦合,该机制对更具区分度的正确轨迹强调局部正则化。理论分析表明,DSDR在有界正则化下能保持最优正确性,在基于群体的优化中维持信息丰富的学习信号,并产生一个原则性的全局到局部耦合规则。
在多个推理基准测试上的实验表明,该方法在准确性和通过率指标上均取得了稳定的提升,凸显了双尺度多样性对于强化学习验证框架中深度探索的重要性。该研究为解决大语言模型推理中的探索瓶颈提供了一种新思路。


