强化学习已成为提升视觉语言模型视觉推理能力的标准后训练方法,但其具体改进机制相比监督微调仍不明确。基准测试的提升往往混杂多种因素,难以归因于特定能力。为厘清这一问题,研究团队提出了一种弗兰肯斯坦式的分析框架。该框架包含三个核心部分:通过因果探测进行功能定位;通过参数比较进行更新表征;以及通过模型合并进行可转移性测试。分析发现,强化学习并未带来视觉感知能力的普遍增强。相反,它主要在中后期层引发了一致的推理时偏移。这些中后期的优化改进既可通过模型合并进行转移,也通过冻结实验被证实是强化学习收益所必需的。总体而言,研究结果表明,强化学习对视觉推理的可靠贡献在于系统性地优化了Transformer的中后层计算。这种优化改善了视觉信息到推理过程的对齐,从而提升了推理性能。这一发现凸显了仅依赖基准测试来理解多模态推理改进的局限性,为后续模型优化提供了更精确的方向。


