通用AI代理评估新框架发布，建立首个开放通用代理排行榜

发布时间：2026-02-28 01:02

通用AI代理（即在陌生环境中无需领域特定工程即可执行任务的系统）的潜力尚未完全实现。现有代理大多为专用型，尽管出现了如OpenAI SDK Agent和Claude Code等具有更广泛能力的实现，但对其通用性能的系统性评估一直缺失。当前的代理基准测试通常假设领域特定的集成，其编码任务信息的方式阻碍了对通用代理的公平评估。

本研究将通用代理评估确立为一流的研究目标。论文提出了此类评估的概念性原则、一个支持代理与基准集成的统一协议，以及一个用于通用代理评估的实用框架Exgentic。

作为首个开放通用代理排行榜，研究团队在六个不同环境中对五种主流代理实现进行了基准测试。实验结果表明，通用代理能够泛化到多样化的环境中，在无需任何环境特定调优的情况下，实现了与领域专用代理相当的性能。

研究人员发布了评估协议、框架和排行榜，旨在为通用目的代理的系统性研究奠定基础。这项工作标志着在衡量和推进通用AI代理能力方面迈出了重要一步。

返回快讯列表