ResearchGym:评估语言模型智能体在真实AI研究中的基准

发布时间:2026-02-18 12:01

研究团队引入了ResearchGym,这是一个用于评估人工智能智能体端到端研究能力的基准与执行环境。为了构建这一基准,团队选取了来自ICML、ICLR和ACL会议的五篇口头报告与焦点论文。对于每篇论文,基准保留了其原始代码仓库中的数据集、评估框架和基线实现,但隐去了论文本身提出的核心方法。这最终形成了五个容器化的任务环境,共包含数十个子任务。在每个环境中,智能体需要提出新颖假设、运行实验,并尝试在论文的评估指标上超越强大的人工基线。在一项针对由前沿大语言模型驱动的智能体的受控评估中,观察到了显著的能力与可靠性差距。该智能体在多次评估中,仅在少数情况下改进了仓库提供的基线性能,平均仅完成了约四分之一左右的子任务。研究识别出了智能体反复出现的长期任务失败模式,包括缺乏耐心、时间和资源管理不善、对薄弱假设过度自信、难以协调并行实验,以及受限于上下文长度等硬性约束。然而,在一次单独运行中,该智能体成功超越了一个焦点会议任务的解决方案,这表明前沿智能体偶尔能够达到顶尖性能,但表现极不稳定。团队还评估了其他商业智能体框架,它们也表现出类似的可靠性差距。ResearchGym为系统评估和分析自主智能体在闭环研究任务中的表现提供了基础设施。

客服微信
客服微信