区域到图像蒸馏技术:提升多模态大模型细粒度感知能力

发布时间:2026-02-16 14:34

多模态大语言模型在宏观视觉理解方面表现出色,但在细粒度感知任务上仍面临挑战,关键证据常因尺寸过小而被全局背景信息淹没。现有“图像思维”方法通过在推理时反复缩放感兴趣区域来缓解此问题,但多次工具调用和视觉重新编码导致了高延迟。

为解决这一瓶颈,本研究提出了区域到图像蒸馏技术。该技术的核心创新在于,将缩放从一种推理时的工具转变为训练时的基本操作,从而将智能缩放的优势内化到多模态大模型的单次前向传播中。具体而言,该方法首先对微裁剪区域进行放大,利用强大的教师模型生成高质量的视觉问答数据,然后将这种基于区域的监督知识蒸馏回完整图像。经过此类数据训练后,较小的学生模型无需使用工具即可提升“单次瞥视”的细粒度感知能力。

为了严谨评估这一能力,研究团队进一步提出了ZoomBench基准。该基准包含涵盖六个细粒度感知维度的视觉问答数据,并采用双视图评估协议来量化全局与区域之间的“缩放差距”。实验结果表明,应用该技术的模型在多个细粒度感知基准测试中取得了领先性能,同时也在视觉推理和图形用户界面智能体等通用多模态认知任务上有所提升。研究还进一步探讨了“图像思维”方法在何种情况下是必要的,以及其收益何时可以被蒸馏到单次前向传播中。

区域到图像蒸馏技术:提升多模态大模型细粒度感知能力

发布时间:2026-02-16 14:34

多模态大语言模型在宏观视觉理解方面表现出色,但在细粒度感知任务上仍面临挑战,关键证据常因尺寸过小而被全局背景信息淹没。现有“图像思维”方法通过在推理时反复缩放感兴趣区域来缓解此问题,但多次工具调用和视觉重新编码导致了高昂的延迟。

为解决这一效率瓶颈,本研究提出了“区域到图像蒸馏”技术。该技术的核心创新在于,将缩放从一个推理时的工具调用,转变为一个训练时的基本操作。通过这种方式,将代理式缩放的优势内化到多模态大模型的一次前向传播中。

具体而言,该方法首先对微裁剪区域进行放大,利用强大的教师模型生成高质量的视觉问答数据。随后,将这些基于区域的监督知识蒸馏回完整的图像上下文中。经过此类数据训练后,较小的学生模型无需使用任何工具,即可在“单次观察”中显著提升细粒度感知能力。

为了严谨评估这一能力,研究团队进一步构建了ZoomBench基准。该基准包含涵盖六个细粒度感知维度的视觉问答数据,并采用双视图评估协议,以量化全局与区域视图之间的“缩放差距”。实验表明,采用该技术训练的模型在多个细粒度感知基准测试中取得了领先性能,同时在视觉推理、图形用户界面智能体等通用多模态认知任务上也表现出改进。

研究还深入探讨了“图像思维”方法在何种情况下是必要的,以及其性能增益在何时可以被有效地蒸馏到单次前向传播中。这项工作为提升多模态模型的细粒度理解效率提供了一条有效路径。

客服微信
客服微信