自适应优化器中掩码更新的惊人有效性:Magma优化器提升LLM训练

发布时间:2026-02-18 11:01

训练大型语言模型几乎完全依赖于采用日益复杂预处理器的密集自适应优化器。本研究对此提出挑战,证明了随机掩码参数更新可以非常有效,其掩码版RMSProp持续优于近期先进的优化器。分析表明,随机掩码会引入一种依赖于曲率的几何正则化,从而平滑优化轨迹。基于这一发现,研究者提出了动量对齐梯度掩码方法。广泛的LLM预训练实验表明,Magma可以作为自适应优化器的简单即插即用替代方案,带来一致的性能提升,且计算开销可忽略。值得注意的是,在特定模型规模上,Magma相比其他主流优化器显著降低了困惑度。该研究为优化器设计提供了新思路,通过简单的掩码操作实现了显著的性能增益。

客服微信
客服微信