ScratchWorld:评估多模态GUI智能体在Scratch中的程序构建能力

发布时间:2026-02-12 05:00 arXiv·cs.AI

在低代码教育中,Scratch等积木式编程环境扮演着核心角色,但评估AI智能体通过图形用户界面构建程序的能力仍是一个探索不足的领域。为此,研究团队引入了ScratchWorld基准,专门用于评估多模态GUI智能体在Scratch环境中的程序构建任务。

ScratchWorld基准基于“使用-修改-创建”的教学框架构建,包含一系列精心设计的任务,涵盖创建、调试、扩展和计算四个不同的问题类别。为了精确诊断智能体失败的根源,该基准采用了两种互补的交互模式:基础模式要求智能体进行细粒度的拖放操作,以直接评估其视觉运动控制能力;而复合模式则使用高级语义API,将程序推理与GUI执行分离开来。

为确保评估的可靠性,研究团队提出了一种基于执行的评估协议。该协议通过在浏览器环境中运行测试,来验证所构建的Scratch程序的功能正确性。通过对当前先进的多模态语言模型和GUI智能体进行广泛实验,结果揭示了一个显著的“推理-执行”差距。这表明,尽管智能体具备较强的规划能力,但在细粒度的GUI操作方面仍面临持续挑战。该研究为深入理解多模态智能体在图形化编程环境中的实际能力提供了重要的评估框架和见解。

客服微信
客服微信