GameDevBench发布：首个评估AI智能体游戏开发能力的基准

发布时间：2026-02-13 00:04

尽管编码智能体发展迅速，但其多模态对应物的进展相对滞后。关键挑战在于缺乏能够结合软件开发复杂性与深度多模态理解需求的评估测试平台。游戏开发提供了这样一个平台，因为智能体必须驾驭庞大、密集的代码库，同时在视觉游戏场景中操作着色器、精灵、动画等本质上是多模态的资产。

为此，研究人员推出了GameDevBench，这是首个用于评估智能体在游戏开发任务上表现的基准。该基准包含132个源自网络和视频教程的任务。这些任务需要显著的多模态理解能力，且复杂度高——平均解决方案所需的代码行数和文件更改量，是先前软件开发基准的三倍以上。

目前，智能体在游戏开发任务上仍面临困难，表现最佳的智能体仅能解决约一半的任务。研究发现，感知到的任务难度与多模态复杂性之间存在强相关性，成功率从面向游戏玩法的任务下降到2D图形任务。

为了提升多模态能力，研究引入了两种基于图像和视频的简单反馈机制。尽管方法简单，但它们能持续提升性能，其中最大的提升使某模型的性能得到了显著改善。

GameDevBench已公开发布，旨在支持未来关于智能体游戏开发的进一步研究。该基准强调了在复杂、多模态环境中评估和提升AI智能体能力的重要性。