通用智能体主动评估：问题定义与基线算法比较研究

发布时间：2026-02-12 05:00 arXiv·cs.AI

随着智能体通用能力的增强，其评估的复杂性与成本显著上升。评估任务可能相互关联且具有随机性，需要大量样本才能进行准确比较，这导致了额外的成本。

本文提出了一个跨多任务主动评估智能体的形式化定义与概念框架。该框架将评估排名算法的性能，作为评估数据样本数量的函数。我们提出了一种在线框架：在每次迭代中，排名算法选择任务和智能体来采样得分。随后，评估算法在每次迭代中报告智能体的排名，并根据随时间推移的真实排名来评估其性能。

研究在多种实验背景下比较了几种基线算法，使用了合成生成的数据以及模拟在线访问来自Atari游戏智能体的真实评估数据。研究发现，经典的Elo评分系统虽然在理论上存在已知的缺陷模式，但在实践中是持续可靠的选择，能有效减少排名误差。

一种近期提出的方法——软孔多塞优化，在合成数据上表现出与Elo相当的性能，并在真实的Atari智能体评估中显著优于Elo。当任务与真实情况的差异较大时，基于比例代表性的任务选择策略能带来更高的排名误差减少率。

该研究为高效评估通用智能体提供了理论基础和算法比较，指出了不同场景下的适用方法。