开放权重大语言模型面临预填充攻击系统性漏洞

发布时间:2026-02-17 16:02

随着大语言模型能力持续提升,其被滥用的潜在风险也同步增加。闭源模型通常依赖外部防御机制,而开放权重模型则主要依靠内部安全措施来约束有害行为。以往的红队测试研究多集中于基于输入的越狱和参数层面的操控。然而,开放权重模型原生支持的预填充功能,允许攻击者在生成过程开始前预先定义初始响应令牌。尽管存在潜在威胁,这一攻击向量此前并未获得系统性关注。

本研究进行了迄今为止规模最大的预填充攻击实证分析,评估了超过20种现有及新颖的攻击策略,覆盖多个模型系列及当前最先进的开放权重模型。研究结果表明,预填充攻击对当代所有主流开放权重模型均持续有效,揭示了一个关键且此前未被充分探索的系统性安全漏洞,对模型的实际部署具有重大影响。

虽然某些大型推理模型对通用预填充攻击展现出一定的鲁棒性,但它们仍然无法抵御针对特定模型量身定制的攻击策略。这些发现凸显了模型开发者亟需将防御预填充攻击置于开放权重大语言模型安全工作的优先位置。该研究为理解开放权重模型的安全边界提供了重要实证依据,并指出了未来强化模型内部防御的关键方向。

客服微信
客服微信