FOSS:基于GFlowNets的跨度流框架,实现语言模型动态词汇泛化

发布时间:2026-02-12 05:00 arXiv·cs.AI

传统自回归语言模型基于固定词汇表逐词生成文本,将词元采样视为动作时,会形成树状状态空间,限制了模型的灵活性与表达能力。近期研究通过采样检索到的文本跨度引入了动态词汇,但忽略了同一句子可由不同长度的跨度组合而成,缺乏对有向无环图状态空间的显式建模。这导致对组合路径的探索受限,并偏向于特定路径。生成流网络在高效探索和泛化状态空间方面表现出色,尤其适用于有向无环图结构。然而,先前基于GFlowNets的语言模型仍局限于词元层面和树状空间,限制了其潜力。本研究提出的跨度流框架,是一个基于GFlowNets的跨度生成原则性框架。该框架通过对检索文本进行灵活分割来构建动态跨度词汇,确保形成有向无环图状态空间,从而使GFlowNets能够探索多样化的组合路径并提升泛化能力。借助专门的奖励模型,该框架能够生成多样且高质量的文本。实证研究表明,该框架在文本生成任务上的MAUVE分数显著优于Transformer模型,在知识密集型任务上也取得了稳定的性能提升,持续超越现有先进方法。扩展实验进一步证明,该框架受益于更大的模型、更多的数据以及更丰富的检索语料库,并能在强基线模型面前保持优势。该工作已作为会议论文发表。

客服微信
客服微信