针对大型语言模型(LLM)中日益频繁的幻觉问题,特别是机构部署中广泛使用的闭源模型缺乏有效缓解手段的现状,研究者提出了QueryBandits框架。该框架是一种模型无关的上下文多臂老虎机系统,其核心在于通过在线学习,自适应地为不同查询选择最优的重写策略。
QueryBandits不依赖于特定的模型架构或参数访问权限。它利用一个经过经验验证和校准的奖励函数,在交互过程中动态评估不同查询重写策略(如释义、扩展等)的效果,从而学习选择能最大化减少幻觉的策略。研究表明,不存在一种适用于所有查询的单一最优重写策略,静态策略有时甚至可能比不进行重写产生更严重的幻觉累积遗憾。
该框架的优势在于,它仅通过前向传递机制来改变模型行为,无需对模型进行重新训练或基于梯度的适配。这使得QueryBandits能够有效应用于无法获取内部参数的闭源商业模型,为实际机构部署中的LLM幻觉缓解提供了可行的新途径。实验表明,其自适应策略显著优于零样本静态策略及不重写的基线方法。


