MOSS-Audio-Tokenizer：面向未来音频基础模型的可扩展音频分词器

发布时间：2026-02-13 06:01

离散音频分词器是赋予大语言模型原生音频处理与生成能力的基础。尽管已有进展，现有方法通常依赖预训练编码器、语义蒸馏或异构的CNN架构，这些设计引入了固定的归纳偏差，限制了重建保真度并阻碍了有效扩展。

本文主张，离散音频分词应使用同质且可扩展的架构进行完全端到端学习。为此，研究人员首先提出了CAT（基于Transformer的因果音频分词器），这是一种纯Transformer架构，从头开始联合优化编码器、量化器和解码器，以实现高保真重建。

基于CAT架构，研究团队开发了MOSS-Audio-Tokenizer，这是一个大规模音频分词器，在大量多样化的通用音频数据上进行了预训练。研究表明，这种由同质因果Transformer模块构建的简单、完全端到端的方法能够优雅地扩展，并支持跨不同音频领域的高保真重建。

在语音、声音和音乐领域，MOSS-Audio-Tokenizer在广泛的比特率范围内持续超越先前的编解码器，同时随着规模扩大展现出可预测的性能提升。值得注意的是，利用该模型的离散令牌，研究人员开发了首个纯自回归的TTS模型，其性能超越了先前的非自回归和级联系统。此外，MOSS-Audio-Tokenizer无需辅助编码器即可实现有竞争力的自动语音识别性能。

这些发现将CAT架构定位为下一代原生音频基础模型的统一、可扩展接口。该研究为未来音频基础模型的发展提供了关键的音频分词技术。

返回快讯列表