主动数据重建攻击ADRA：检测语言模型训练数据的新方法

发布时间：2026-02-26 03:31

检测大型语言模型的训练数据通常被视为成员推理攻击问题。传统方法被动地依赖固定的模型权重，利用对数似然或文本生成进行判断。本研究提出了主动数据重建攻击，这是一种主动诱导模型通过训练重建给定文本的成员推理攻击方法。

其核心假设是：训练数据比非成员数据更具可重建性，这种可重建性的差异可用于成员推断。受强化学习能锐化权重中已有行为的发现启发，研究利用基于策略的强化学习，通过从目标模型初始化的策略进行微调，主动引发数据重建。

为了有效将强化学习用于成员推理攻击，研究设计了重建指标和对比奖励机制。由此产生的ADRA算法及其自适应变体ADRA+，在给定候选数据池的情况下，同时改进了数据重建和成员检测的效果。

实验表明，该方法在检测预训练数据、后训练数据及蒸馏数据时，性能持续优于现有的成员推理攻击方法。特别是在预训练数据检测和后训练数据检测的特定基准测试上，ADRA+相比之前表现优异的方法取得了显著提升。该方法为理解和评估语言模型的数据记忆与隐私风险提供了新的主动分析框架。