强化学习与可验证奖励已成为提升大语言模型推理能力的主流范式。然而,现有方法存在一个显著缺陷:在提高单次通过准确率的同时,会收窄模型的推理边界并降低生成多样性。研究发现,其根本原因在于对错误的统一惩罚机制。无论是基于难度筛选提示数据的方法,还是优势归一化方案,都将同一组内所有错误推理路径等同对待。这种处理方式使得过度自信的错误得以持续存在并垄断概率分布,最终抑制了有效的探索性轨迹。过度自信错误指的是那些被强化学习过程错误强化的不正确推理路径。为解决这一问题,研究团队提出了非对称置信度感知错误惩罚方法。该方法引入每个推理路径的置信度偏移度量,以动态调节负向优势值。从理论上看,该方法的梯度可分解为针对过度自信错误的选择性正则化器梯度,加上一个部分调节正则化器强度的残差项。实验在多个主流大语言模型和数学推理数据集上进行。评估结果表明,该方法能与现有技术无缝结合,并在多个模型系列和基准测试中,全面提升不同采样次数下的通过率。该方法为改进强化学习在大语言模型中的应用提供了新思路,有助于在保持准确率的同时维护生成多样性。


