扩散大语言模型因其并行令牌生成能力,成为自回归大语言模型的有力替代方案。这一特性尤其适合代码生成任务,因为代码生成需要整体的结构规划和非顺序的细化能力。然而,为CUDA内核生成定制扩散大语言模型面临挑战,不仅因为其高度专业性,还由于高质量训练数据的严重缺乏。
为解决这些问题,研究团队构建了CuKe数据集,这是一个为高性能CUDA内核优化的增强型监督微调数据集。在此基础上,团队提出了一个双阶段强化学习框架,包含CUDA内核填充阶段和端到端的CUDA内核生成阶段。
利用这一训练框架,研究人员推出了DICE系列模型,这是专为CUDA内核生成设计的一系列扩散大语言模型,涵盖了多个参数规模。在KernelBench上的大量实验表明,DICE模型显著优于同等规模的自回归和扩散大语言模型,为CUDA内核生成设立了新的性能标杆。该工作展示了扩散模型在特定、高要求代码生成任务上的巨大潜力。


