DICE扩散大语言模型在CUDA内核生成领域表现卓越

发布时间：2026-02-16 14:35

扩散大语言模型因其并行生成令牌的能力，成为自回归大语言模型的有力替代方案。这一特性尤其适合代码生成任务，因为代码生成需要整体结构规划和非顺序的优化调整。然而，为CUDA内核生成定制扩散大语言模型面临挑战，不仅因为其高度专业性，还因为高质量训练数据的严重缺乏。

为解决这些问题，研究团队构建了CuKe数据集，这是一个为高性能CUDA内核优化的增强型监督微调数据集。在此基础上，团队提出了一个双阶段强化学习框架，包含CUDA内核填充阶段和端到端的CUDA内核生成阶段。

利用这一训练框架，研究人员推出了DICE系列扩散大语言模型，专为CUDA内核生成而设计，涵盖了多个参数规模。在KernelBench上的大量实验表明，DICE模型显著优于同等规模的自回归和扩散大语言模型，为CUDA内核生成树立了新的技术标杆。该研究展示了扩散模型在特定代码生成任务上的巨大潜力。