Code2Worlds是一个旨在赋能编码大语言模型进行4D世界生成的新框架。该研究认为,实现空间智能需要超越视觉合理性,构建基于物理定律的世界模拟器。尽管编码大语言模型在静态3D场景生成方面取得了进展,但将其范式扩展到包含时间维度的4D动态生成仍是一个关键前沿。
该任务面临两个根本性挑战。首先是多尺度上下文纠缠问题,即单一的整体生成方法难以平衡局部物体结构与全局环境布局。其次是语义-物理执行鸿沟,开放循环的代码生成会导致缺乏动态保真度的物理幻觉。
Code2Worlds框架将4D生成任务形式化为语言到模拟代码的生成过程。其核心创新包括两个方面。第一,提出了一种双流架构,将检索增强的物体生成与分层环境编排解耦,从而有效管理不同尺度的上下文。第二,为了确保动态保真度,建立了一个物理感知的闭环机制。该机制包含一个负责编写动态脚本的后处理智能体,以及一个进行自我反思以迭代优化模拟代码的视觉语言模型-运动评判器。
评估结果表明,该框架在相关基准测试中超越了基线方法,在场景生成得分和丰富度方面均有显著提升,并且能够生成先前静态方法所缺乏的物理感知动态效果。该工作为利用大语言模型构建逼真、可交互的动态世界模拟器提供了新的思路与方法。


