Code2Worlds是一个旨在赋能编码大语言模型进行4D世界生成的新框架。该研究认为,实现空间智能需要超越视觉合理性,构建基于物理定律的世界模拟器。虽然编码大语言模型在静态3D场景生成方面已取得进展,但将其范式扩展到包含时间维度的4D动态生成仍是一个关键前沿。
该任务面临两个根本性挑战:一是多尺度上下文纠缠,即单一的整体生成方法难以平衡局部物体结构与全局环境布局;二是语义-物理执行鸿沟,即开环的代码生成会导致缺乏动态保真度的物理幻觉。
Code2Worlds框架将4D生成任务形式化为语言到模拟代码的生成过程。其核心创新包括两个方面:首先,提出了一种双流架构,将检索增强的物体生成与分层环境编排解耦,以应对多尺度挑战。其次,为了确保动态保真度,建立了一个物理感知的闭环机制。该机制包含一个负责编写动态脚本的后处理智能体,以及一个执行自我反思以迭代优化模拟代码的视觉语言模型-运动评判器。
评估结果表明,Code2Worlds在基准测试中超越了基线方法,在场景生成得分和丰富度方面均有显著提升。该框架的独特优势在于能够生成先前静态方法所不具备的、物理感知的动态效果,为构建更逼真、可交互的虚拟世界模拟器提供了新的技术路径。


