多源不完美偏好强化学习的遗憾界理论与算法研究

发布时间：2026-04-04 04:54

基于人类反馈的强化学习（RLHF）通常使用轨迹对的偏好来替代难以指定的奖励函数。然而，现有理论往往假设偏好标签由单一真实目标一致生成。在实际系统中，反馈通常来自多个来源（如标注者、专家、奖励模型、启发式规则），并且可能因主观性、专业水平差异或标注/建模误差而产生系统性、持续性的不匹配。本研究通过累积不完美度预算来形式化多源不完美偏好下的阶段性强化学习问题：对于每个来源，其偏好概率与理想预言机在K个回合内的总偏差不超过ω。研究提出了一种统一算法，其遗憾界为Õ(√(K/M) + ω)。该算法展现出“两全其美”的特性：当不完美度较小时，它能获得与来源数量M相关的统计增益；当不完美度不可避免较大时，其遗憾仍能稳健地保持对ω的加性依赖。研究同时给出了一个下界Õ(max{√(K/M), ω})，这捕捉了相对于M可能的最佳改进以及对ω不可避免的依赖。此外，研究通过反例表明，若天真地将不完美反馈视为与预言机一致的反馈，可能导致高达Õ(min{ω√K, K})的遗憾。在技术层面，该研究方法涉及不完美度自适应的加权比较学习、用于控制隐藏反馈引起的分布偏移的价值目标转移估计，以及保持加权目标可分析性的子重要性采样。这些技术共同提供了理论保证，量化了多源反馈在何时能证明改进RLHF，以及累积不完美度如何从根本上限制其性能。

返回快讯列表