DSDR：双尺度多样性正则化提升LLM推理探索能力

发布时间：2026-02-24 12:02

在利用带验证器的强化学习改进大语言模型推理的过程中，现有方法常面临探索受限的挑战。策略容易坍缩到少数几种推理模式，并过早停止深度探索。传统的熵正则化仅引入局部随机性，无法产生有意义的路径级多样性，导致基于群体的策略优化信号弱且不稳定。

DSDR（双尺度多样性正则化）框架将大语言模型推理的多样性分解为全局和耦合两个组成部分。在全局层面，DSDR促进正确推理轨迹之间的多样性，以探索不同的解决方案模式。在局部层面，它应用一种长度不变、仅限于正确轨迹的词元级熵正则化，防止每种模式内部的熵坍缩，同时保持正确性。

两个尺度通过一个全局到局部的分配机制进行耦合，该机制对更具区分度的正确轨迹强调局部正则化。理论分析表明，DSDR在有界正则化下能保持最优正确性，在基于群体的优化中维持信息丰富的学习信号，并产生一个原则性的全局到局部耦合规则。

在多个推理基准测试上的实验表明，该方法在准确性和通过率指标上均取得了稳定的提升，凸显了双尺度多样性对于强化学习验证框架中深度探索的重要性。该研究为解决大语言模型推理中的探索瓶颈提供了一种新思路。