学习型共形新颖性检测的对抗鲁棒性研究

发布时间：2026-04-04 04:54

本文系统研究了共形新颖性检测方法的对抗鲁棒性。研究聚焦于两种具有有限样本错误发现率控制保证的强大学习框架：一种是基于正例-未标记分类器的AdaDetect方法，另一种是基于单类分类器的方法。尽管这些方法在良性条件下提供了严格的统计保证，但它们在对抗性扰动下的行为尚未得到充分探索。研究首先在AdaDetect框架下构建了一个理想化的攻击模型，用于量化错误发现率在最坏情况下的恶化程度，并推导出一个表征攻击统计代价的上界。这一理想化模型直接启发了一种仅需查询框架输出标签即可实施的实用且有效的攻击方案。通过将该攻击方案与两种流行且互补的黑盒对抗算法相结合，研究在合成数据集和真实世界数据集上系统评估了两种框架的脆弱性。结果表明，对抗性扰动能够在保持高检测能力的同时，显著增加错误发现率。这暴露了当前基于错误控制的新颖性检测方法的根本局限性，并推动了开发更具鲁棒性替代方案的需求。

返回快讯列表