随着智能体通用能力的增强,其评估的复杂性与成本显著上升。评估任务可能相互关联且具有随机性,需要大量样本才能进行准确比较,这导致了额外的成本。
本文提出了一个跨多任务主动评估智能体的形式化定义与概念框架。该框架将评估排名算法的性能,作为评估数据样本数量的函数。我们提出了一种在线框架:在每次迭代中,排名算法选择任务和智能体来采样得分。随后,评估算法在每次迭代中报告智能体的排名,并根据随时间推移的真实排名来评估其性能。
研究在多种实验背景下比较了几种基线算法,使用了合成生成的数据以及模拟在线访问来自Atari游戏智能体的真实评估数据。研究发现,经典的Elo评分系统虽然在理论上存在已知的缺陷模式,但在实践中是持续可靠的选择,能有效减少排名误差。
一种近期提出的方法——软孔多塞优化,在合成数据上表现出与Elo相当的性能,并在真实的Atari智能体评估中显著优于Elo。当任务与真实情况的差异较大时,基于比例代表性的任务选择策略能带来更高的排名误差减少率。
该研究为高效评估通用智能体提供了理论基础和算法比较,指出了不同场景下的适用方法。


