V-STAR:基于价值引导的结构化采样与优化框架解决生成式推荐探索难题

发布时间:2026-02-12 05:00 arXiv·cs.AI

生成式推荐通过自回归模型将检索与排序统一到条件生成框架中。然而,使用强化学习微调这些模型时,常面临根本性的概率-奖励失配问题。传统的以似然为主导的解码策略(如束搜索)对局部高概率前缀存在短视偏见,这导致两个关键缺陷:探索不足与优势压缩。探索不足指低概率分支中的高奖励项目被过早剪枝而难以被采样;优势压缩则指共享高概率前缀的轨迹获得高度相关的奖励,组内方差低,为强化学习提供的比较信号微弱。为解决这些挑战,研究团队提出了V-STAR框架,即价值引导的采样与树状结构优势强化框架。V-STAR通过两个协同组件形成一个自我演进的循环。首先,开发了价值引导高效解码方法,用于识别关键决策节点并有选择地深化高潜力前缀,从而在不进行穷举树搜索的情况下提升探索效率。其次,提出了Sibling-GRPO方法,利用诱导出的树状拓扑结构计算兄弟节点间的相对优势,并将学习信号集中在关键的分支决策上。实验表明,该框架在多个数据集上超越了现有先进基线,在严格的延迟约束下实现了更优的准确性和候选集多样性。

客服微信
客服微信