OmniGAIA:迈向原生全域模态AI代理与新基准

发布时间:2026-02-27 11:02

人类智能天然融合了视觉、听觉、语言等全域模态感知,并与复杂推理和工具使用相结合以与世界互动。然而,当前主流的多模态大语言模型主要局限于双模态交互,缺乏通用AI助手所需的一体化认知能力。为弥补这一差距,本文引入了OmniGAIA,这是一个全面的基准,旨在评估全域模态智能体在需要跨视频、音频和图像模态进行深度推理和多轮工具执行的任务上的表现。OmniGAIA通过一种新颖的全域模态事件图方法构建,它综合了源自真实世界数据的复杂、多跳查询,这些查询需要跨模态推理和外部工具集成。此外,本文提出了OmniAtlas,一个在工具集成推理范式下具备主动全域模态感知能力的原生全域模态基础智能体。通过基于后见之明引导的树探索策略合成的轨迹以及用于细粒度错误纠正的OmniDPO进行训练,OmniAtlas有效增强了现有开源模型的工具使用能力。这项工作标志着向面向真实世界场景的下一代原生全域模态AI助手迈出了一步。

客服微信
客服微信