多模态大语言模型在宏观视觉理解方面表现出色,但在细粒度感知任务上仍面临挑战,关键证据常因尺寸过小而被全局背景信息淹没。现有“图像思维”方法通过在推理时反复缩放感兴趣区域来缓解此问题,但多次工具调用和视觉重新编码导致了高延迟。
为解决这一瓶颈,本研究提出了区域到图像蒸馏技术。该技术的核心创新在于,将缩放从一种推理时的工具转变为训练时的基本操作,从而将智能缩放的优势内化到多模态大模型的单次前向传播中。具体而言,该方法首先对微裁剪区域进行放大,利用强大的教师模型生成高质量的视觉问答数据,然后将这种基于区域的监督知识蒸馏回完整图像。经过此类数据训练后,较小的学生模型无需使用工具即可提升“单次瞥视”的细粒度感知能力。
为了严谨评估这一能力,研究团队进一步提出了ZoomBench基准。该基准包含涵盖六个细粒度感知维度的视觉问答数据,并采用双视图评估协议来量化全局与区域之间的“缩放差距”。实验结果表明,应用该技术的模型在多个细粒度感知基准测试中取得了领先性能,同时也在视觉推理和图形用户界面智能体等通用多模态认知任务上有所提升。研究还进一步探讨了“图像思维”方法在何种情况下是必要的,以及其收益何时可以被蒸馏到单次前向传播中。


