扩展现实(XR)应用需要生成模型能够响应用户在真实世界中被追踪的运动。然而,现有的视频世界模型通常仅接受文本或键盘输入等粗略控制信号,这限制了它们在具身交互中的实用性。为此,研究团队引入了一种以人为中心的视频世界模型。该模型的创新之处在于,其控制条件同时包含了被追踪的头部姿态和关节级的手部姿态。为了实现这一目标,团队评估了现有的扩散变换器条件控制策略,并提出了一种有效的三维头部与手部控制机制。该机制能够支持灵巧的手部与物体交互。基于此策略,研究团队训练了一个双向视频扩散模型作为教师模型,并将其蒸馏为一个因果性的交互式系统。该系统能够生成以自我为中心的虚拟环境。通过与人机交互实验评估,该“生成现实”系统在任务完成表现上有所提升。与相关基线模型相比,用户在感知层面对所执行动作的控制程度也显著更高。这项研究为构建更自然、响应更精准的XR交互体验提供了新的技术路径。


