Code2Worlds：利用编码大语言模型生成4D动态世界的新框架

发布时间：2026-02-16 14:35

Code2Worlds是一个旨在赋能编码大语言模型进行4D世界生成的新框架。该研究认为，实现空间智能需要超越视觉合理性，构建基于物理定律的世界模拟器。尽管编码大语言模型在静态3D场景生成方面取得了进展，但将其范式扩展到包含时间维度的4D动态生成仍是一个关键前沿。

该任务面临两个根本性挑战。首先是多尺度上下文纠缠问题，即单一的整体生成方法难以平衡局部物体结构与全局环境布局。其次是语义-物理执行鸿沟，开放循环的代码生成会导致缺乏动态保真度的物理幻觉。

Code2Worlds框架将4D生成任务形式化为语言到模拟代码的生成过程。其核心创新包括两个方面。第一，提出了一种双流架构，将检索增强的物体生成与分层环境编排解耦，从而有效管理不同尺度的上下文。第二，为了确保动态保真度，建立了一个物理感知的闭环机制。该机制包含一个负责编写动态脚本的后处理智能体，以及一个进行自我反思以迭代优化模拟代码的视觉语言模型-运动评判器。

评估结果表明，该框架在相关基准测试中超越了基线方法，在场景生成得分和丰富度方面均有显著提升，并且能够生成先前静态方法所缺乏的物理感知动态效果。该工作为利用大语言模型构建逼真、可交互的动态世界模拟器提供了新的思路与方法。

返回快讯列表