尽管基于Transformer的语言模型在实践中取得了显著成功,但近期研究对其执行状态跟踪的能力提出了担忧。已有大量文献主要通过分布外泛化(如长度外推)的失败来揭示这一局限。本研究则将关注点转向这些局限在分布内的影响。
我们进行了一项大规模实验,比较了Transformer和循环神经网络在多种监督机制下的数据效率。研究发现,随着状态空间大小和序列长度的增加,Transformer所需的训练数据量比RNN增长得快得多。
此外,我们分析了学习到的状态跟踪机制在不同序列长度间的共享程度。结果表明,Transformer在不同长度间表现出可忽略甚至有害的权重共享,这意味着它们孤立地学习了针对特定长度的解决方案。相反,循环模型通过跨长度共享权重,展现了有效的摊销学习,使得来自一个序列长度的数据能够提升其他长度的性能。
综上所述,这些结果证明,即使训练和评估分布相匹配,状态跟踪对于Transformer而言仍然是一个根本性的挑战。该研究揭示了不同序列模型架构内在的归纳偏置对其学习效率和泛化能力的重要影响。


