Code2Worlds框架：利用编码大语言模型生成物理精确的4D动态世界

发布时间：2026-02-16 14:35

Code2Worlds是一个旨在赋能编码大语言模型进行4D世界生成的新框架。该研究认为，实现空间智能需要超越视觉合理性，构建基于物理定律的世界模拟器。虽然编码大语言模型在静态3D场景生成方面已取得进展，但将其范式扩展到包含时间维度的4D动态生成仍是一个关键前沿。

该任务面临两个根本性挑战：一是多尺度上下文纠缠，即单一的整体生成方法难以平衡局部物体结构与全局环境布局；二是语义-物理执行鸿沟，即开环的代码生成会导致缺乏动态保真度的物理幻觉。

Code2Worlds框架将4D生成任务形式化为语言到模拟代码的生成过程。其核心创新包括两个方面：首先，提出了一种双流架构，将检索增强的物体生成与分层环境编排解耦，以应对多尺度挑战。其次，为了确保动态保真度，建立了一个物理感知的闭环机制。该机制包含一个负责编写动态脚本的后处理智能体，以及一个执行自我反思以迭代优化模拟代码的视觉语言模型-运动评判器。

评估结果表明，Code2Worlds在基准测试中超越了基线方法，在场景生成得分和丰富度方面均有显著提升。该框架的独特优势在于能够生成先前静态方法所不具备的、物理感知的动态效果，为构建更逼真、可交互的虚拟世界模拟器提供了新的技术路径。

返回快讯列表