STAPO:通过抑制罕见虚假Token稳定大语言模型强化学习训练

发布时间:2026-02-18 11:31

强化学习(RL)显著提升了大语言模型的推理能力,但现有的RL微调方法严重依赖启发式技术(如熵正则化和权重调整)来维持稳定性。实践中,这些方法常遭遇后期性能崩溃,导致推理质量下降和训练不稳定。研究推导出,RL中基于Token的策略梯度大小与Token概率及局部策略熵呈负相关。基于此结果,研究证明训练不稳定性是由极少部分Token(称为“虚假Token”)驱动的。当这些Token出现在正确响应中时,它们对推理结果的贡献微乎其微,却继承了序列级别的完整奖励,导致梯度更新被异常放大。受此观察启发,研究提出了用于大规模模型精炼的虚假Token感知策略优化(STAPO)。该方法选择性地屏蔽此类更新,并在有效Token上对损失进行重归一化。在多个数学推理基准测试中,STAPO在基于不同参数规模的基础模型上,均展现出更优的熵稳定性,并实现了相对于其他主流RL微调方法的平均性能提升。该方法为解决大语言模型强化学习训练中的稳定性挑战提供了一种新思路。

客服微信
客服微信