LoopFormer:弹性深度循环Transformer实现预算约束推理

发布时间:2026-02-13 04:01

循环Transformer已成为语言领域推理任务中一类高效且强大的模型。近期研究表明,这类模型在算法和推理任务上表现出色,表明循环架构对潜在推理具有归纳偏置。然而,先前方法在训练和推理时固定了循环迭代次数,这留下了一个开放性问题:这些模型能否在可变计算预算下灵活调整其计算深度?

为此,研究人员引入了LoopFormer,这是一种在可变长度轨迹上训练的循环Transformer,旨在实现预算条件推理。其核心贡献是一种捷径一致性训练方案,该方案对齐了不同长度的轨迹,确保较短的循环能产生信息丰富的表示,而较长的循环则继续对其进行优化。

LoopFormer使每个循环基于当前时间和步长进行条件化,从而确保表示能在不同长度的轨迹上一致地演化,而非发生漂移或停滞。实证结果表明,即使在严格的计算约束下,LoopFormer在语言建模和推理基准测试中也展现出稳健的性能,并能随着额外预算的增加而优雅地扩展。

这些结果表明,循环Transformer本质上适合自适应语言建模,为开发可控且具有预算意识的大型语言模型开辟了道路。该研究强调了模型架构适应不同计算资源的重要性,为未来高效能AI系统的发展提供了新思路。

客服微信
客服微信