因果运动扩散模型：实现高质量自回归运动生成

发布时间：2026-02-27 11:31

现有运动扩散模型在提升人体运动合成真实感方面取得显著进展，但仍面临挑战。传统方法主要分为两类：一类是基于全序列扩散的双向生成模型，其受限于时序因果性和实时应用性；另一类是自回归模型，存在不稳定和误差累积的问题。

为此，研究团队提出了因果运动扩散模型（CMDM）。这是一个基于因果扩散变换器的统一框架，用于在语义对齐的潜空间中进行自回归运动生成。CMDM建立在运动-语言对齐因果变分自编码器（MAC-VAE）之上，该编码器将运动序列编码为时序因果的潜表示。

在此潜表示基础上，一个自回归扩散变换器通过因果扩散强制进行训练，以在运动帧之间执行时序有序的去噪过程。为了实现快速推理，模型引入了具有因果不确定性的逐帧采样策略，其中后续帧由部分去噪的前序帧预测而来。

该框架支持高质量的文本到运动生成、流式合成以及以交互速率生成长时程运动。在相关基准数据集上的实验表明，CMDM在语义保真度和时序平滑性方面均优于现有的扩散模型和自回归模型，同时显著降低了推理延迟。该工作已被计算机视觉顶会接收。