EmbodMocap:面向具身智能体的野外4D人与场景重建技术

发布时间:2026-02-27 18:32

为解决现有昂贵影棚采集系统对野外大规模数据收集的限制,研究人员提出了EmbodMocap。这是一种便携且低成本的数据采集流程,仅需使用两部移动的iPhone。其核心思想是通过联合标定双RGB-D序列,在统一的度量世界坐标系中同时重建人体与场景。该方法允许在日常环境中进行度量尺度且场景一致的捕捉,无需静态相机或标记物,无缝桥接了人体运动与场景几何。

与光学捕捉真值相比,双视角设置展现出显著减轻深度模糊的能力,在人体对齐与重建性能上优于单iPhone或单目模型。基于所采集的数据,该研究赋能了三个具身AI任务:单目人与场景重建,通过微调前馈模型输出度量尺度且与世界空间对齐的人体与场景;基于物理的角色动画,证明数据可用于扩展人-物交互技能与场景感知的运动跟踪;以及机器人运动控制,通过仿真到现实的强化学习训练人形机器人复现视频中的人体动作。实验结果验证了该流程的有效性及其对推动具身AI研究的贡献。

客服微信
客服微信