深度研究代理能够生成分析师级别的报告,但由于缺乏单一标准答案且研究质量具有多维特性,对其评估仍具挑战。现有基准方法存在“合成幻象”问题,即表面的流畅性和引用对齐可能掩盖底层的事实与推理缺陷。
为应对此挑战,研究团队提出了DREAM(深度研究与智能体指标评估)框架。该框架引入了一个跨越四个维度的分类法,揭示了关键的能力不匹配问题:静态评估器本质上缺乏评估时效有效性和事实正确性所需的工具使用能力。
DREAM的核心原则是“能力对等”,通过使评估过程本身智能化来实现。该框架通过一个评估协议来构建评估,该协议结合了查询无关的指标与由工具调用智能体生成的自适应指标。这使得评估能够具备时间感知的覆盖范围、基于事实的验证以及系统性的推理探测。
受控评估表明,与现有基准相比,DREAM对事实错误和时效性衰减的检测显著更为敏感。该框架提供了一个可扩展的、无需参考标准的评估范式,为深度研究代理的评估提供了新的解决方案。


