当大语言模型被要求进行数学解题、逻辑证明等复杂任务时,其生成能力与真实推理能力之间的差距日益凸显。针对模型可能出现的“自信错误”或“畏首畏尾”现象,中国人民大学高瓴人工智能学院赵鑫团队发表了论文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》,提出了一种新的推理模型训练方法A3PO。该方法的核心在于澄清训练机制:正样本主要收缩策略空间,强化已有正确路径;负样本则扩张策略空间,促使模型探索新路径。
研究团队通过系统实验对比了仅用正样本、仅用负样本以及混合使用的效果。仅用正样本训练会使模型输出趋于确定,答案变短,但可能陷入重复套路的“奖励黑客”行为;仅用负样本训练则能增强探索性,输出变长,但训练不稳定。两者结合能取得更平衡的效果。进一步分析发现,训练动态的关键并非所有token,而是两类特定token:正样本中低概率但正确的“冷门正确token”,以及负样本中高概率但错误的“自信错误token”。
基于此,A3PO方法设计了自适应、非对称的token级优势加权机制。它对正样本中的低概率正确token给予更高奖励,以保留多样化的正确推理路径;对负样本中的高概率错误token施加更强惩罚,以纠正模型的固执错误。这些加权系数在训练中会逐步衰减,从而实现从探索到收敛的自然过渡。实验表明,该方法在多个模型和数学推理基准上带来了稳定的性能提升。
这项研究的意义在于将强化学习训练过程机制化与清晰化。它表明,推动推理大模型进步的关键,可能不在于单纯扩大规模,而在于深入理解并精细调控训练过程本身,特别是抓住那些决定推理走向的关键决策点进行重点优化。这一思路为未来大模型的对齐与能力提升提供了新的方向。



