MAEB大规模音频嵌入基准发布，全面评估音频AI模型能力

发布时间：2026-02-19 18:31

研究团队正式发布了大规模音频嵌入基准MAEB，这是一个旨在全面评估音频AI模型性能的大型基准测试。MAEB覆盖了语音、音乐、环境声音以及跨模态的音频-文本推理等多种任务类型，涉及的语言种类广泛。

通过对超过50个模型进行评估，研究发现没有单一模型能在所有任务上占据主导地位。对比性音频-文本模型在环境声音分类任务上表现出色，但在多语言语音任务上的得分却接近随机水平；而经过语音预训练的模型则呈现出相反的模式。聚类任务对所有模型来说仍然具有挑战性，即使表现最佳的模型也仅取得了有限的成果。

研究观察到一个关键现象：在声学理解方面表现优异的模型，通常在语言任务上表现不佳，反之亦然。此外，研究还表明，音频编码器在MAEB上的性能，与其在音频大语言模型中的使用性能高度相关。

MAEB源自一个包含更多任务的MAEB+集合。该基准的设计旨在保持任务多样性的同时，降低评估成本，并且它已集成到MTEB生态系统中，以实现跨文本、图像和音频模态的统一评估。研究团队已公开发布了MAEB基准、所有相关任务、代码以及性能排行榜。