随着LLM智能体日益被期望作为通用系统处理开放式用户请求,对其评估需要更贴近现实的设置。现有基准多专注于为开发专用智能体提供领域感知环境,而评估通用智能体则要求一个能挑战其在统一环境中跨多种技能和工具操作的框架。为此,研究人员引入了General AgentBench。该基准提供了一个统一的框架,用于在搜索、编码、推理和工具使用等多个领域评估通用LLM智能体。
利用General AgentBench,研究团队系统性地研究了在顺序扩展(迭代交互)和并行扩展(采样多个轨迹)下的测试时扩展行为。对多个领先LLM智能体的评估揭示了一个关键发现:当从领域特定的评估转向这种通用智能体设置时,智能体性能出现了显著的下降。
进一步分析表明,在实践中,无论是顺序扩展还是并行扩展,都未能带来有效的性能提升。这主要归因于两个根本性的局限:在顺序扩展中存在的“上下文天花板”限制,以及在并行扩展中存在的“验证鸿沟”问题。这些发现突显了当前通用LLM智能体在应对复杂、开放环境时所面临的挑战。该研究的代码已公开提供。


