在工业自然语言处理领域,紧凑的预训练双向编码器在有限的计算和内存预算下仍是核心支柱。以BERT为代表的架构,其有效性源于自注意力机制能够提供高质量的双向上下文建模及序列级并行处理能力。
近期,Avey作为一种自回归的无注意力替代方案被提出,它天然适用于仅编码器范式。本研究对Avey进行重构,专门针对仅编码器范式,并提出了多项架构创新。这些创新包括解耦的静态与动态参数化、面向稳定性的归一化技术以及神经压缩方法。
实验结果表明,这种重构后的Avey-B架构与四种广泛使用的基于Transformer的编码器相比具有优势。在标准的词元分类和信息检索基准测试中,Avey-B持续表现出更优的性能。同时,该架构在处理长上下文序列时展现出更高的扩展效率。
这项研究为在资源受限环境下寻求高效、高性能编码器方案提供了新的思路,展示了无注意力模型在工业级NLP任务中的巨大潜力。


