LoopFormer：弹性深度循环Transformer实现预算约束推理

发布时间：2026-02-13 04:01

循环Transformer已成为语言领域推理任务中一类高效且强大的模型。近期研究表明，这类模型在算法和推理任务上表现出色，表明循环架构对潜在推理具有归纳偏置。然而，先前方法在训练和推理时固定了循环迭代次数，这留下了一个开放性问题：这些模型能否在可变计算预算下灵活调整其计算深度？

为此，研究人员引入了LoopFormer，这是一种在可变长度轨迹上训练的循环Transformer，旨在实现预算条件推理。其核心贡献是一种捷径一致性训练方案，该方案对齐了不同长度的轨迹，确保较短的循环能产生信息丰富的表示，而较长的循环则继续对其进行优化。

LoopFormer使每个循环基于当前时间和步长进行条件化，从而确保表示能在不同长度的轨迹上一致地演化，而非发生漂移或停滞。实证结果表明，即使在严格的计算约束下，LoopFormer在语言建模和推理基准测试中也展现出稳健的性能，并能随着额外预算的增加而优雅地扩展。

这些结果表明，循环Transformer本质上适合自适应语言建模，为开发可控且具有预算意识的大型语言模型开辟了道路。该研究强调了模型架构适应不同计算资源的重要性，为未来高效能AI系统的发展提供了新思路。