面向扩散语言模型的感知下沉点剪枝方法研究

发布时间:2026-02-23 21:31

扩散语言模型(DLM)因其迭代去噪过程,导致推理成本高昂,因此高效的模型剪枝技术至关重要。现有的剪枝启发式方法大多继承自自回归大语言模型(AR LLM),通常会保留注意力下沉点(attention sink)令牌,因为在AR模型中,这些下沉点作为稳定的全局锚点。然而,研究表明,这一假设对DLM并不成立。

在DLM中,注意力下沉点的位置在整个生成轨迹上表现出显著更高的方差。这意味着下沉点通常是瞬态的,其结构重要性远低于AR模型。基于这一关键观察,研究团队提出了“感知下沉点剪枝”方法。该方法能够自动识别DLM中不稳定的下沉点并进行剪枝,而此前的研究通常为AR LLM保留这些下沉点。

该方法的核心优势在于,无需对模型进行重新训练,即可实现更好的质量与效率权衡。在计算资源匹配的条件下,该方法的表现优于先前强大的剪枝基线方法。这项工作为扩散语言模型的压缩与加速提供了新的思路,挑战了从自回归模型沿袭而来的传统剪枝假设,并针对DLM的动态特性提出了更适配的优化方案。

客服微信
客服微信