STATe-of-Thoughts (STATe) 是一种创新的、可解释的推理时计算方法,旨在解决现有方法在输出多样性和可控性上的不足。传统方法如Best-of-N和思维树依赖高温采样,往往难以产生真正有意义的输出多样性,且对推理过程的控制有限,影响了结果的可解释性。
STATe的核心思想是用结构化、可解释的文本干预取代随机采样。其框架包含三个关键组件:一个控制器负责选择编码高层推理决策的动作,一个生成器根据这些动作选择生成具体的推理步骤,以及一个评估器对候选结果进行评分以引导搜索过程。
这种结构化方法带来了三大优势。首先,基于动作引导的文本干预比基于温度的采样能产生更大的响应多样性。其次,在论证生成的案例研究中,STATe明确的动作序列捕获了可解释的特征,这些特征对输出质量具有高度预测性。最后,通过分析性能与动作选择之间的关联,STATe能够识别动作空间中尚未探索但有潜力的区域,并直接引导生成过程朝向这些区域。
综合来看,STATe建立了一个实用的框架,用于生成高质量、多样化且可解释的文本。该方法为提升大型语言模型在复杂推理任务中的可控性和透明度提供了新的思路。


