DDiT：面向高效扩散Transformer的动态Patch调度方法

发布时间：2026-02-20 12:01

扩散Transformer（DiT）在图像和视频生成领域取得了领先的性能，但其成功伴随着巨大的计算开销。这种低效性主要源于固定的标记化过程，即在去噪阶段始终使用恒定大小的图像块，而忽略了内容复杂度的差异。

为解决此问题，研究者提出了动态标记化策略。这是一种高效的测试时方法，其核心思想是根据内容复杂度和当前去噪时间步来动态调整图像块的大小。关键洞见在于：在去噪早期，仅需较粗糙的大块来建模全局结构；而在去噪后期，则需要更精细的小块来完善局部细节。

在推理过程中，该方法为图像和视频生成任务，在去噪步骤间动态地重新分配Patch大小。这能在保持感知生成质量和提示遵循度的前提下，大幅降低计算成本。广泛的实验验证了该方法的有效性，在多个基准数据集上实现了显著的加速效果，且未损害生成质量。

该研究为提升扩散Transformer的效率提供了一种新思路，通过动态资源分配来优化计算过程，对推动高效生成模型的发展具有积极意义。