传统上,大型语言模型的解码过程常被视为需要经验性调整的启发式步骤。本研究提出了一种全新的理论框架,将解码重新定义为在概率单形上进行的一个原则性优化层。具体而言,在生成每个词元时,系统通过求解一个正则化优化问题,在模型评分与结构性偏好及约束之间进行权衡。这一统一的数学模板具有强大的解释力。研究表明,贪婪解码、Softmax采样、Top-K采样、Top-P(核)采样以及Sparsemax风格的稀疏化方法,均可被视为该框架下的特例。通过最优性条件,框架清晰地揭示了这些常见解码方法共有的内在结构。更重要的是,该框架为系统性地设计新解码器提供了理论基础,避免了依赖经验性“民间智慧”。作为框架应用的一个实例,研究团队设计了一种名为Best-of-K的新型解码器。BoK采用了一种以KL散度为锚点的覆盖目标函数,专门针对自洽性、重排序、验证器选择等多样本流程进行优化。其核心目标是在固定的K个样本预算内,最大化覆盖优质备选答案的概率,从而提升实际性能。初步实证结果表明,此类采样方法能在特定任务上带来显著的性能提升。例如,在高采样温度下,对于特定模型在数学推理数据集上的表现,Best-of-K采样展现了可观的准确率改进潜力。该研究为理解和改进LLM解码策略提供了一个坚实、可扩展的优化视角。


