HLE-Verified:对“人类最后测验”基准的系统性验证与结构化修订

发布时间:2026-02-19 01:00

HLE(Humanity's Last Exam)已成为广泛用于评估前沿大型语言模型在复杂、多领域问题上能力的基准。然而,社区分析指出,HLE基准中包含相当数量的噪声项目,这可能使评估结果产生偏差并扭曲模型间的比较。

为应对这一挑战,研究团队提出了HLE-Verified。这是一个经过验证和修订的HLE版本,其构建遵循一个透明的验证协议和细粒度的错误分类法。整个构建过程采用两阶段“验证-修复”工作流程,最终产出一个经过认证的基准。

在第一阶段,每个项目都通过领域专家评审和基于模型的交叉检查,对其问题和最终答案进行二元验证,由此产生了数百个已验证项目。在第二阶段,对有缺陷但可修复的项目在严格约束下进行修订,以保留原始评估意图。修订过程包括双独立专家修复、模型辅助审计和最终裁决,产生了上千个经过修订和认证的项目。其余项目则被发布为一个有文档记录的不确定集合,其中明确标注了不确定性来源和专业领域标签,以供未来完善。

研究团队在HLE和HLE-Verified上评估了多个先进的语言模型。结果显示,在HLE-Verified上,模型的平均绝对准确率有显著提升。在那些原始问题陈述和/或参考答案有误的项目上,提升幅度尤为明显。分析进一步揭示了模型置信度与问题陈述或参考答案中存在错误之间的强关联,这支持了修订的有效性。

总体而言,HLE-Verified通过减少标注噪声,实现了对模型能力更忠实的测量,从而改进了基于HLE风格的评估。相关数据已公开提供。

客服微信
客服微信