视觉说服力：探究视觉语言模型决策机制的系统性框架

发布时间：2026-02-18 11:31

随着网络图像被越来越多地交由视觉语言模型（VLM）代理进行解读与决策，理解其视觉偏好结构变得至关重要。这些代理进行大规模视觉决策，例如决定点击、推荐或购买什么，但其决策机制尚不明确。

为此，研究团队引入了一个系统性研究框架。该框架的核心是将VLM置于受控的基于图像的选择任务中，并系统性地扰动其输入。关键思路是将代理的决策函数视为一种潜在的视觉效用，并通过显示性偏好来推断——即通过分析代理在经系统编辑的图像对之间做出的选择。

研究方法从常见图像（如产品照片）出发，提出了视觉提示优化的方法。该方法借鉴了文本优化思路，利用图像生成模型迭代地提出并应用视觉上合理的修改（例如构图、光照或背景），然后评估哪些编辑能提高被选中的概率。

通过在前沿VLM上进行大规模实验，研究表明，经过优化的编辑在头对头比较中能显著改变选择概率。团队还开发了自动可解释性流程来解释这些偏好，识别出驱动选择的一致视觉主题。

这一方法为揭示视觉脆弱性提供了一种实用且高效的途径。这些脆弱性可能涉及安全关切，若未主动审计，或将在实际应用中被隐性发现。该框架支持对基于图像的AI代理进行更主动的审计与治理。