通过随机梯度噪声结构揭示m-锐度及其正则化效应
锐度感知最小化(SAM)是一种能有效提升模型泛化能力的技术,但其底层原理尚未被完全理解。本研究聚焦于m-锐度现象,即SAM的性能随着用于计算扰动的微批次尺寸减小而单调提升。这一现象对分布式训练至关重要,但此前缺乏严格解释。 研究团队利用扩展的随机微分方程框架,分析了随机梯度噪声,以刻画包括n-SAM和m-SAM在内的SAM变体的动态特性。分析表明,随机扰动会诱导出一种基于方差的隐式锐度正则化,其强度随着微批次尺寸m的减小而增加。 基于这一发现,研究提出了重加权SAM方法。该方法采用锐度加权采样,旨在模拟m-SAM带来的泛化优势,同时保持算法的可并行性。综合实验验证了所提出的理论和方法。该工作已被相关学术会议接收。


