通过随机梯度噪声结构揭示m-锐度及其正则化效应

发布时间：2026-04-04 04:59

锐度感知最小化（SAM）是一种能有效提升模型泛化能力的技术，但其底层原理尚未被完全理解。本研究聚焦于m-锐度现象，即SAM的性能随着用于计算扰动的微批次尺寸减小而单调提升。这一现象对分布式训练至关重要，但此前缺乏严格解释。研究团队利用扩展的随机微分方程框架，分析了随机梯度噪声，以刻画包括n-SAM和m-SAM在内的SAM变体的动态特性。分析表明，随机扰动会诱导出一种基于方差的隐式锐度正则化，其强度随着微批次尺寸m的减小而增加。基于这一发现，研究提出了重加权SAM方法。该方法采用锐度加权采样，旨在模拟m-SAM带来的泛化优势，同时保持算法的可并行性。综合实验验证了所提出的理论和方法。该工作已被相关学术会议接收。

返回快讯列表