V-STAR：基于价值引导的结构化采样与优化框架解决生成式推荐探索难题

发布时间：2026-02-12 05:00 arXiv·cs.AI

生成式推荐通过自回归模型将检索与排序统一到条件生成框架中。然而，使用强化学习微调这些模型时，常面临根本性的概率-奖励失配问题。传统的以似然为主导的解码策略（如束搜索）对局部高概率前缀存在短视偏见，这导致两个关键缺陷：探索不足与优势压缩。探索不足指低概率分支中的高奖励项目被过早剪枝而难以被采样；优势压缩则指共享高概率前缀的轨迹获得高度相关的奖励，组内方差低，为强化学习提供的比较信号微弱。为解决这些挑战，研究团队提出了V-STAR框架，即价值引导的采样与树状结构优势强化框架。V-STAR通过两个协同组件形成一个自我演进的循环。首先，开发了价值引导高效解码方法，用于识别关键决策节点并有选择地深化高潜力前缀，从而在不进行穷举树搜索的情况下提升探索效率。其次，提出了Sibling-GRPO方法，利用诱导出的树状拓扑结构计算兄弟节点间的相对优势，并将学习信号集中在关键的分支决策上。实验表明，该框架在多个数据集上超越了现有先进基线，在严格的延迟约束下实现了更优的准确性和候选集多样性。

返回快讯列表