人大高瓴赵鑫团队提出A3PO：聚焦关键推理节点，重塑大模型训练机制

发布时间：2026-01-19 05:53 雷峰网·人工智能

当大语言模型被要求进行数学解题、逻辑证明等复杂任务时，其生成能力与真实推理能力之间的差距日益凸显。针对模型可能出现的“自信错误”或“畏首畏尾”现象，中国人民大学高瓴人工智能学院赵鑫团队发表了论文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》，提出了一种新的推理模型训练方法A3PO。该方法的核心在于澄清训练机制：正样本主要收缩策略空间，强化已有正确路径；负样本则扩张策略空间，促使模型探索新路径。

研究团队通过系统实验对比了仅用正样本、仅用负样本以及混合使用的效果。仅用正样本训练会使模型输出趋于确定，答案变短，但可能陷入重复套路的“奖励黑客”行为；仅用负样本训练则能增强探索性，输出变长，但训练不稳定。两者结合能取得更平衡的效果。进一步分析发现，训练动态的关键并非所有token，而是两类特定token：正样本中低概率但正确的“冷门正确token”，以及负样本中高概率但错误的“自信错误token”。

基于此，A3PO方法设计了自适应、非对称的token级优势加权机制。它对正样本中的低概率正确token给予更高奖励，以保留多样化的正确推理路径；对负样本中的高概率错误token施加更强惩罚，以纠正模型的固执错误。这些加权系数在训练中会逐步衰减，从而实现从探索到收敛的自然过渡。实验表明，该方法在多个模型和数学推理基准上带来了稳定的性能提升。

这项研究的意义在于将强化学习训练过程机制化与清晰化。它表明，推动推理大模型进步的关键，可能不在于单纯扩大规模，而在于深入理解并精细调控训练过程本身，特别是抓住那些决定推理走向的关键决策点进行重点优化。这一思路为未来大模型的对齐与能力提升提供了新的方向。

返回快讯列表