面向扩散语言模型的感知下沉点剪枝方法研究

发布时间：2026-02-23 21:31

扩散语言模型（DLM）因其迭代去噪过程，导致推理成本高昂，因此高效的模型剪枝技术至关重要。现有的剪枝启发式方法大多继承自自回归大语言模型（AR LLM），通常会保留注意力下沉点（attention sink）令牌，因为在AR模型中，这些下沉点作为稳定的全局锚点。然而，研究表明，这一假设对DLM并不成立。

在DLM中，注意力下沉点的位置在整个生成轨迹上表现出显著更高的方差。这意味着下沉点通常是瞬态的，其结构重要性远低于AR模型。基于这一关键观察，研究团队提出了“感知下沉点剪枝”方法。该方法能够自动识别DLM中不稳定的下沉点并进行剪枝，而此前的研究通常为AR LLM保留这些下沉点。

该方法的核心优势在于，无需对模型进行重新训练，即可实现更好的质量与效率权衡。在计算资源匹配的条件下，该方法的表现优于先前强大的剪枝基线方法。这项工作为扩散语言模型的压缩与加速提供了新的思路，挑战了从自回归模型沿袭而来的传统剪枝假设，并针对DLM的动态特性提出了更适配的优化方案。

返回快讯列表