扩散式大语言模型代表了一种超越自回归建模的新范式,在保持竞争力的同时,天然支持灵活的并行解码过程。dLLMs能够在任意位置并行生成token,这为其在测试时进行并行扩展提供了巨大潜力,而此前自回归模型因效率低下在此方面受到严重限制。
本研究提出的dVoting技术,是一种无需额外训练即可提升模型推理能力的快速投票方法,且仅带来可接受的计算开销。其核心动机源于观察发现:对于同一提示词的多轮采样生成,大部分token的预测结果保持一致,而模型整体性能实际上由少数几个在不同样本间表现出差异的关键token所决定。
dVoting充分利用了dLLMs可在任意位置生成的特性,执行一种迭代优化流程:首先进行采样,随后通过一致性分析识别出预测不确定的token,接着通过投票机制对这些token进行重新生成,并重复此过程直至结果收敛。该方法有效利用了模型内在的并行能力。
广泛的评估表明,dVoting能够在多个主流基准测试上持续提升模型性能,覆盖数学推理、常识问答及知识理解等多个任务维度。该技术为扩散式大语言模型的性能优化提供了一种高效且无需训练的后处理路径。


