强化学习如何改进视觉推理？新分析揭示其对Transformer中后层的系统性优化

发布时间：2026-02-16 14:34

强化学习已成为提升视觉语言模型视觉推理能力的标准后训练方法，但其具体改进机制相比监督微调仍不明确。基准测试的提升往往混杂多种因素，难以归因于特定能力。为厘清这一问题，研究团队提出了一种弗兰肯斯坦式的分析框架。该框架包含三个核心部分：通过因果探测进行功能定位；通过参数比较进行更新表征；以及通过模型合并进行可转移性测试。分析发现，强化学习并未带来视觉感知能力的普遍增强。相反，它主要在中后期层引发了一致的推理时偏移。这些中后期的优化改进既可通过模型合并进行转移，也通过冻结实验被证实是强化学习收益所必需的。总体而言，研究结果表明，强化学习对视觉推理的可靠贡献在于系统性地优化了Transformer的中后层计算。这种优化改善了视觉信息到推理过程的对齐，从而提升了推理性能。这一发现凸显了仅依赖基准测试来理解多模态推理改进的局限性，为后续模型优化提供了更精确的方向。

返回快讯列表