研究揭示潜在视觉推理机制存缺陷，显式想象方法更优

发布时间：2026-02-27 12:01

潜在视觉推理旨在通过多模态大语言模型的隐藏状态来模拟人类的想象过程，被视为视觉推理的一个有前景的范式。然而，驱动其有效性的底层机制尚不明确。为了揭示其真正有效的来源，研究团队使用因果中介分析来检验潜在推理的有效性。

研究人员将该过程建模为一个因果链：输入作为处理，潜在标记作为中介，最终答案作为结果。研究发现揭示了两个关键的脱节现象：首先是输入与潜在表征的脱节，即对输入进行剧烈扰动，潜在标记的变化却微乎其微，这表明潜在标记并未有效关注输入序列。其次是潜在表征与答案的脱节，即对潜在标记进行扰动，对最终答案的影响极小，这表明潜在标记对结果施加的因果效应有限。

进一步的探测分析表明，潜在标记编码的视觉信息有限，且表现出高度相似性。基于这些发现，研究对潜在推理的必要性提出了挑战，并提出了一种名为CapImagine的简单替代方案。该方法教导模型使用文本来进行显式想象。

在多个以视觉为中心的基准测试上的实验表明，CapImagine显著优于复杂的潜在空间基线方法，凸显了通过显式想象进行视觉推理的优越潜力。这项研究为理解多模态大模型的推理机制提供了新的视角，并指出了改进方向。

返回快讯列表