研究人员推出了ISO-Bench,这是一个专门用于评估编码代理在真实世界推理优化任务上能力的基准测试。该基准的任务来源于两个当前最流行的大型语言模型服务框架。每个任务为代理提供一个代码库和瓶颈描述,代理需要生成一个优化补丁,并与专家的人工解决方案进行对比评估。
基准中的任务均选自已合并的拉取请求,这些请求都带来了可测量的性能提升。与现有主要依赖运行时指标的基准不同,ISO-Bench结合了基于执行的硬指标和基于大型语言模型的软指标进行综合评估。研究表明,这两种指标对于完整评估都是必要的,仅靠运行时指标可能无法准确捕捉代码变更的实际意图。
在评估闭源和开源的编码代理时,研究发现没有单一代理能在所有代码库上表现最优。一个有趣的发现是,代理经常能识别出正确的性能瓶颈,但却无法成功执行有效的工作解决方案。此外,研究还表明,即使基于相同底层模型的编码代理,其表现也可能存在显著差异,这提示代理的脚手架设计与模型本身的能力同等重要。


