MAEB大规模音频嵌入基准发布,全面评估音频AI模型能力

发布时间:2026-02-19 18:31

研究团队正式发布了大规模音频嵌入基准MAEB,这是一个旨在全面评估音频AI模型性能的大型基准测试。MAEB覆盖了语音、音乐、环境声音以及跨模态的音频-文本推理等多种任务类型,涉及的语言种类广泛。

通过对超过50个模型进行评估,研究发现没有单一模型能在所有任务上占据主导地位。对比性音频-文本模型在环境声音分类任务上表现出色,但在多语言语音任务上的得分却接近随机水平;而经过语音预训练的模型则呈现出相反的模式。聚类任务对所有模型来说仍然具有挑战性,即使表现最佳的模型也仅取得了有限的成果。

研究观察到一个关键现象:在声学理解方面表现优异的模型,通常在语言任务上表现不佳,反之亦然。此外,研究还表明,音频编码器在MAEB上的性能,与其在音频大语言模型中的使用性能高度相关。

MAEB源自一个包含更多任务的MAEB+集合。该基准的设计旨在保持任务多样性的同时,降低评估成本,并且它已集成到MTEB生态系统中,以实现跨文本、图像和音频模态的统一评估。研究团队已公开发布了MAEB基准、所有相关任务、代码以及性能排行榜。

客服微信
客服微信