强化学习已成为提升视觉语言模型视觉推理能力的标准后训练方法,但其相较于监督微调具体改进了哪些能力,仍不明确。端到端的基准测试提升混杂了多种因素,难以将改进归因于特定技能。为弥补这一认知差距,研究团队提出了一种弗兰肯斯坦式的分析框架。该框架包含三个核心部分:通过因果探测进行功能定位;通过参数比较进行更新表征;以及通过模型合并进行可转移性测试。分析发现,强化学习并非均匀地增强模型的视觉感知能力。相反,它主要在推理时引发Transformer中后层的一致计算偏移。这些对中后层的精修改进,既可通过模型合并进行转移,也是强化学习获得增益所必需的。研究结果表明,强化学习对视觉推理的可靠贡献,在于系统性地优化了Transformer的中后层计算,从而改善了视觉信息到推理过程的对齐,并最终提升了推理性能。这一发现凸显了仅依赖基准测试来理解多模态推理改进的局限性,为后续模型优化提供了更精确的方向。


