通用AI代理(即在陌生环境中无需领域特定工程即可执行任务的系统)的潜力尚未完全实现。现有代理大多为专用型,尽管出现了如OpenAI SDK Agent和Claude Code等具有更广泛能力的实现,但对其通用性能的系统性评估一直缺失。当前的代理基准测试通常假设领域特定的集成,其编码任务信息的方式阻碍了对通用代理的公平评估。
本研究将通用代理评估确立为一流的研究目标。论文提出了此类评估的概念性原则、一个支持代理与基准集成的统一协议,以及一个用于通用代理评估的实用框架Exgentic。
作为首个开放通用代理排行榜,研究团队在六个不同环境中对五种主流代理实现进行了基准测试。实验结果表明,通用代理能够泛化到多样化的环境中,在无需任何环境特定调优的情况下,实现了与领域专用代理相当的性能。
研究人员发布了评估协议、框架和排行榜,旨在为通用目的代理的系统性研究奠定基础。这项工作标志着在衡量和推进通用AI代理能力方面迈出了重要一步。


