CHAIN基准测试:评估视觉推理与物理行动交互能力的新平台

发布时间:2026-02-25 11:30

理解物理结构对于具身智能体、交互式设计和长程操作等现实应用至关重要。然而,当前主流的视觉语言模型评估仍集中于与结构无关的单轮设置,这无法有效评估智能体在动态环境中推理几何、接触和支撑关系如何共同约束可能行动的能力。为填补这一空白,研究团队引入了因果行动与交互层次基准,这是一个交互式、由物理驱动的三维测试平台,旨在评估模型能否基于物理约束理解、规划并执行结构化的动作序列。CHAIN将评估重点从被动感知转向主动问题解决,涵盖的任务包括互锁机械拼图和三维堆叠与包装等。研究在统一的交互设置下对前沿的视觉语言模型和基于扩散的模型进行了全面研究。结果表明,性能领先的模型在理解物理结构和因果约束方面仍存在困难,常常无法生成可靠的长程计划,并且难以稳健地将感知到的结构转化为有效的行动。该基准测试的推出,标志着对模型在复杂物理世界中交互与推理能力评估的重要进展。

客服微信
客服微信