CrispEdit:基于低曲率投影的可扩展非破坏性大语言模型编辑算法

发布时间:2026-02-21 04:01

大语言模型编辑面临的核心挑战是能力保持:成功改变目标行为的方法可能会暗中利用编辑代理并损害模型的通用能力,产生类似于代理/奖励攻击的退化行为。CrispEdit作为一种可扩展且基于原则的二阶编辑算法,将能力保持视为明确的约束条件,统一并推广了多种现有的编辑方法。

CrispEdit将编辑问题表述为约束优化,并通过将编辑更新投影到能力损失景观的低曲率子空间来强制执行约束。该算法的核心是通过Bregman散度来表达能力约束,其二次形式能精确给出高斯-牛顿海森矩阵,即使基础模型未训练至收敛也适用。

为了使这一二阶过程在大语言模型规模上高效运行,CrispEdit采用了克罗内克分解近似曲率技术,并利用一种新颖的无矩阵投影器,该投影器利用克罗内克结构来避免构建庞大的投影矩阵。在标准模型编辑基准测试中,CrispEdit实现了较高的编辑成功率,同时将能力退化保持在较低水平,显著优于先前的编辑方法。

该研究由Zarif Ikram等五位作者共同完成,论文已提交至arXiv预印本平台。CrispEdit为大规模语言模型的安全、可控编辑提供了一种新的、有原则的技术路径。

客服微信
客服微信