MOSS-Audio-Tokenizer:面向未来音频基础模型的可扩展音频分词器

发布时间:2026-02-13 06:01

离散音频分词器是赋予大语言模型原生音频处理与生成能力的基础。尽管已有进展,现有方法通常依赖预训练编码器、语义蒸馏或异构的CNN架构,这些设计引入了固定的归纳偏差,限制了重建保真度并阻碍了有效扩展。

本文主张,离散音频分词应使用同质且可扩展的架构进行完全端到端学习。为此,研究人员首先提出了CAT(基于Transformer的因果音频分词器),这是一种纯Transformer架构,从头开始联合优化编码器、量化器和解码器,以实现高保真重建。

基于CAT架构,研究团队开发了MOSS-Audio-Tokenizer,这是一个大规模音频分词器,在大量多样化的通用音频数据上进行了预训练。研究表明,这种由同质因果Transformer模块构建的简单、完全端到端的方法能够优雅地扩展,并支持跨不同音频领域的高保真重建。

在语音、声音和音乐领域,MOSS-Audio-Tokenizer在广泛的比特率范围内持续超越先前的编解码器,同时随着规模扩大展现出可预测的性能提升。值得注意的是,利用该模型的离散令牌,研究人员开发了首个纯自回归的TTS模型,其性能超越了先前的非自回归和级联系统。此外,MOSS-Audio-Tokenizer无需辅助编码器即可实现有竞争力的自动语音识别性能。

这些发现将CAT架构定位为下一代原生音频基础模型的统一、可扩展接口。该研究为未来音频基础模型的发展提供了关键的音频分词技术。

客服微信
客服微信