RL微调视觉语言模型的鲁棒性与思维链一致性研究

发布时间：2026-02-16 14:34

强化学习（RL）微调已成为增强大型语言模型（LLM）在推理密集型任务上表现的关键技术，并正被扩展应用于视觉语言模型（VLM）。尽管经过RL微调的VLM在视觉推理基准测试上有所提升，但它们仍然容易受到视觉基础薄弱、产生幻觉以及过度依赖文本线索等问题的影响。研究表明，简单、受控的文本扰动（如误导性标题或错误的思维链（CoT）轨迹）会导致模型的鲁棒性和置信度显著下降。当在开源多模态推理模型中考虑思维链一致性时，这些影响更为明显。基于熵的度量进一步表明，这些扰动重塑了模型对正确选项的不确定性和概率质量，揭示了模型在错误校准方面的特定趋势。为了深入理解这些脆弱性，研究进一步分析了RL微调的动态过程，揭示了一个准确性与忠实度之间的权衡：微调提高了基准准确性，但同时可能削弱了伴随的思维链的可靠性及其对上下文变化的鲁棒性。尽管对抗性增强可以提高鲁棒性，但其本身并不能防止忠实度漂移。引入关注忠实度的奖励可以恢复答案与推理之间的对齐，但当与增强技术结合使用时，训练可能塌缩到捷径策略上，鲁棒性仍然难以实现。这些发现共同凸显了仅以准确性进行评估的局限性，并呼吁在训练和评估协议中共同强调正确性、鲁棒性以及基于视觉的推理的忠实度。

返回快讯列表