生成现实：基于手部与相机控制的交互式视频生成实现以人为中心的世界模拟

发布时间：2026-02-23 11:01

扩展现实（XR）应用需要生成模型能够响应用户在真实世界中被追踪的运动。然而，现有的视频世界模型通常仅接受文本或键盘输入等粗略控制信号，这限制了它们在具身交互中的实用性。为此，研究团队引入了一种以人为中心的视频世界模型。该模型的创新之处在于，其控制条件同时包含了被追踪的头部姿态和关节级的手部姿态。为了实现这一目标，团队评估了现有的扩散变换器条件控制策略，并提出了一种有效的三维头部与手部控制机制。该机制能够支持灵巧的手部与物体交互。基于此策略，研究团队训练了一个双向视频扩散模型作为教师模型，并将其蒸馏为一个因果性的交互式系统。该系统能够生成以自我为中心的虚拟环境。通过与人机交互实验评估，该“生成现实”系统在任务完成表现上有所提升。与相关基线模型相比，用户在感知层面对所执行动作的控制程度也显著更高。这项研究为构建更自然、响应更精准的XR交互体验提供了新的技术路径。

返回快讯列表