解码作为概率单形优化：统一框架与新型Best-of-K采样器

发布时间：2026-02-23 22:32

传统上，大型语言模型的解码过程常被视为需要经验性调整的启发式步骤。本研究提出了一种全新的理论框架，将解码重新定义为在概率单形上进行的一个原则性优化层。具体而言，在生成每个词元时，系统通过求解一个正则化优化问题，在模型评分与结构性偏好及约束之间进行权衡。这一统一的数学模板具有强大的解释力。研究表明，贪婪解码、Softmax采样、Top-K采样、Top-P（核）采样以及Sparsemax风格的稀疏化方法，均可被视为该框架下的特例。通过最优性条件，框架清晰地揭示了这些常见解码方法共有的内在结构。更重要的是，该框架为系统性地设计新解码器提供了理论基础，避免了依赖经验性“民间智慧”。作为框架应用的一个实例，研究团队设计了一种名为Best-of-K的新型解码器。BoK采用了一种以KL散度为锚点的覆盖目标函数，专门针对自洽性、重排序、验证器选择等多样本流程进行优化。其核心目标是在固定的K个样本预算内，最大化覆盖优质备选答案的概率，从而提升实际性能。初步实证结果表明，此类采样方法能在特定任务上带来显著的性能提升。例如，在高采样温度下，对于特定模型在数学推理数据集上的表现，Best-of-K采样展现了可观的准确率改进潜力。该研究为理解和改进LLM解码策略提供了一个坚实、可扩展的优化视角。

返回快讯列表