DiffGradCAM:一种抗对抗训练的通用类激活映射方法
类激活映射及其基于梯度的变体已成为解释卷积神经网络预测的标准工具。然而,这些方法通常关注单个逻辑值,而对于使用Softmax的神经网络,类别成员概率估计仅依赖于逻辑值之间的差异,而非其绝对值。这种脱节使得标准CAM方法容易受到对抗性操纵,例如被动欺骗攻击,即模型被训练产生误导性的CAM而不影响决策性能。 为应对此挑战,研究引入了SHAM,这是一种熵感知形式的被动欺骗攻击,可作为对抗条件下CAM鲁棒性的基准。为从根本上解决被动欺骗的漏洞,研究提出了DiffGradCAM。这是一种新颖、轻量级且基于对比的类激活映射方法。该方法不仅不易受到被动欺骗攻击,而且在非对抗情况下,其输出与GradCAM等标准CAM方法的结果相匹配。 SHAM与DiffGradCAM共同建立了一个新的框架,用于探测和提升基于显著性的解释的鲁棒性。这些贡献已在包含少数类别和多数类别的多分类任务中得到了验证。该研究为提升机器学习模型解释方法的对抗鲁棒性提供了新的思路和工具。


