SARAH技术:实现空间感知实时虚拟人交互

发布时间:2026-02-23 11:31

随着具身代理在虚拟现实、远程临场与数字人应用中日益重要,其动作生成需超越简单的语音同步手势。理想的代理应能转向用户、响应用户移动并保持自然视线接触,而现有方法普遍缺乏这种空间感知能力。

SARAH技术填补了这一空白,提出了首个完全因果、实时运行的空间感知对话动作生成方法,可直接部署于流式VR头显设备。该方法以用户位置和双方对话音频为输入,生成与语音同步的全身动作,同时使虚拟人根据用户方位进行朝向调整。

其技术架构结合了基于因果Transformer的变分自编码器与流匹配模型。VAE使用交错潜在令牌实现流式推理,而流匹配模型则根据用户轨迹和音频进行条件生成。为适应不同用户的视线偏好,SARAH引入了带分类器无关引导的视线评分机制,将学习与控制解耦:模型从数据中学习自然的空间对齐模式,而用户可在推理时调整眼神接触的强度。

在相关数据集上的评估表明,该方法在保持顶尖动作质量的同时,实现了极高的推理速度,显著快于非因果基线模型,并能捕捉自然对话中细微的空间动态特征。该技术已在实时VR系统中得到验证,成功将空间感知对话代理推向实际部署。SARAH为VR社交、远程协作及数字人交互提供了更自然、沉浸的实时解决方案。

客服微信
客服微信