SARAH技术：实现空间感知实时虚拟人交互

发布时间：2026-02-23 11:31

随着具身代理在虚拟现实、远程临场与数字人应用中日益重要，其动作生成需超越简单的语音同步手势。理想的代理应能转向用户、响应用户移动并保持自然视线接触，而现有方法普遍缺乏这种空间感知能力。

SARAH技术填补了这一空白，提出了首个完全因果、实时运行的空间感知对话动作生成方法，可直接部署于流式VR头显设备。该方法以用户位置和双方对话音频为输入，生成与语音同步的全身动作，同时使虚拟人根据用户方位进行朝向调整。

其技术架构结合了基于因果Transformer的变分自编码器与流匹配模型。VAE使用交错潜在令牌实现流式推理，而流匹配模型则根据用户轨迹和音频进行条件生成。为适应不同用户的视线偏好，SARAH引入了带分类器无关引导的视线评分机制，将学习与控制解耦：模型从数据中学习自然的空间对齐模式，而用户可在推理时调整眼神接触的强度。

在相关数据集上的评估表明，该方法在保持顶尖动作质量的同时，实现了极高的推理速度，显著快于非因果基线模型，并能捕捉自然对话中细微的空间动态特征。该技术已在实时VR系统中得到验证，成功将空间感知对话代理推向实际部署。SARAH为VR社交、远程协作及数字人交互提供了更自然、沉浸的实时解决方案。

返回快讯列表