研究人员推出了NESSiE基准,这是一个用于大型语言模型的必要安全测试。该基准通过极简的信息安全和访问安全测试用例,旨在揭示那些本不应存在的、与任务低复杂度形成反差的安全相关故障。NESSiE被设计为一个轻量级、易于使用的语言模型安全性“健康检查”。研究者强调,通过此项测试是任何模型部署的必要条件,但仅凭它并不足以保证全面的安全性。
然而,测试结果显示,即使是目前最先进的大型语言模型,也无法在NESSiE上达到满分。这意味着它们未能满足语言模型安全的必要条件,且这些失败是在没有对抗性攻击的普通情况下出现的。研究团队提出的“安全与有益”指标,允许对这两个要求进行直接比较。分析表明,模型普遍存在偏向于“有益”而牺牲“安全”的倾向。
研究进一步发现,某些模型被禁用的推理能力,尤其是良性的干扰性上下文,会显著降低模型在安全任务上的表现。这些发现共同强调了将此类模型作为自主代理在现实世界中部署时所面临的重大风险。NESSiE的数据集、代码包及绘图工具已向公众开放。


