强化学习如何改进视觉推理？新分析揭示其对Transformer中后层的系统性优化

发布时间：2026-02-16 14:34

强化学习已成为提升视觉语言模型视觉推理能力的标准后训练方法，但其相较于监督微调具体改进了哪些能力，仍不明确。端到端的基准测试提升混杂了多种因素，难以将改进归因于特定技能。为弥补这一认知差距，研究团队提出了一种弗兰肯斯坦式的分析框架。该框架包含三个核心部分：通过因果探测进行功能定位；通过参数比较进行更新表征；以及通过模型合并进行可转移性测试。分析发现，强化学习并非均匀地增强模型的视觉感知能力。相反，它主要在推理时引发Transformer中后层的一致计算偏移。这些对中后层的精修改进，既可通过模型合并进行转移，也是强化学习获得增益所必需的。研究结果表明，强化学习对视觉推理的可靠贡献，在于系统性地优化了Transformer的中后层计算，从而改善了视觉信息到推理过程的对齐，并最终提升了推理性能。这一发现凸显了仅依赖基准测试来理解多模态推理改进的局限性，为后续模型优化提供了更精确的方向。

返回快讯列表