PAHF框架:基于人类反馈的个性化AI代理持续学习

发布时间:2026-02-20 05:01

现代AI代理功能强大,但往往难以与个体用户独特且动态变化的偏好保持一致。现有方法通常依赖静态数据集,通过在交互历史中训练隐式偏好模型或将用户画像编码到外部记忆来实现。然而,这些方法难以应对新用户以及偏好随时间变化的情况。

研究人员提出了PAHF框架,这是一个持续个性化框架,代理通过显式的每用户记忆,在实时交互中在线学习。PAHF运作包含三个步骤的循环:首先,在执行动作前寻求澄清以消除歧义;其次,根据从记忆中检索到的偏好来执行动作;最后,当偏好发生漂移时,整合动作后的反馈以更新记忆。

为了评估这一能力,研究团队开发了一个四阶段评估协议,并在具身操作和在线购物两个领域构建了基准测试。这些基准用于量化代理从零开始学习初始偏好,以及随后适应角色转变的能力。理论分析与实证结果表明,将显式记忆与双反馈通道结合至关重要:PAHF的学习速度显著更快,并持续优于无记忆和单通道基线方法,有效降低了初始个性化误差,并实现了对偏好变化的快速适应。

客服微信
客服微信