无数据协方差估计实现模型融合,提升多任务性能
模型融合是一种低成本整合多个独立模型能力的技术。现有方法虽能接近多任务训练的性能,但多基于启发式设计,缺乏理论依据。另一种基于层间优化、直接最小化任务干扰的原则性方法,则需要从数据中估计每层的协方差矩阵,这在融合时可能无法获得数据支持。相比之下,许多启发式方法无需辅助数据,更具实践优势。本研究重新审视了干扰最小化框架,证明在特定条件下,协方差矩阵可以直接从差异矩阵中估计出来。这一发现消除了对数据的需求,同时降低了计算成本。该方法在从数千万到数十亿参数规模的视觉和语言基准模型上进行了验证,其性能超越了先前最先进的无数据模型融合方法。该工作为模型融合提供了更严谨的理论基础与高效的实践路径。


