科学推理需要整合复杂的专业工具包来处理领域特定知识。然而,当前的基准测试在很大程度上忽视了智能体为完成严谨工作流而协调使用多种工具的能力。为了弥补这一差距,研究人员引入了SciAgentGym。这是一个可扩展的交互式环境,涵盖了四个自然科学学科的众多领域特定工具,并配备了稳健的执行基础设施。
与此配套,研究人员还提出了SciAgentBench,这是一个分层评估套件,旨在对智能体能力进行压力测试,范围从基本操作到长视野工作流。评估揭示了一个关键瓶颈:即使是最先进的模型,在处理复杂的科学工具使用时也面临困难。随着交互步骤的增加,主要模型的成功率出现显著下降,这主要归因于在多步工作流执行中的失败。
为了应对这一挑战,研究团队提出了SciForge,一种数据合成方法。该方法将工具动作空间建模为依赖图,以生成具有逻辑意识的训练轨迹。通过在合成轨迹上进行微调,研究团队开发的较小规模模型在科学工具使用能力上超越了参数规模大得多的现有先进模型,并展现出正向的跨领域能力迁移。这些结果凸显了下一代自主科学智能体的潜力。


