随着网络图像被越来越多地交由视觉语言模型(VLM)代理进行解读与决策,理解其视觉偏好结构变得至关重要。这些代理进行大规模视觉决策,例如决定点击、推荐或购买什么,但其决策机制尚不明确。
为此,研究团队引入了一个系统性研究框架。该框架的核心是将VLM置于受控的基于图像的选择任务中,并系统性地扰动其输入。关键思路是将代理的决策函数视为一种潜在的视觉效用,并通过显示性偏好来推断——即通过分析代理在经系统编辑的图像对之间做出的选择。
研究方法从常见图像(如产品照片)出发,提出了视觉提示优化的方法。该方法借鉴了文本优化思路,利用图像生成模型迭代地提出并应用视觉上合理的修改(例如构图、光照或背景),然后评估哪些编辑能提高被选中的概率。
通过在前沿VLM上进行大规模实验,研究表明,经过优化的编辑在头对头比较中能显著改变选择概率。团队还开发了自动可解释性流程来解释这些偏好,识别出驱动选择的一致视觉主题。
这一方法为揭示视觉脆弱性提供了一种实用且高效的途径。这些脆弱性可能涉及安全关切,若未主动审计,或将在实际应用中被隐性发现。该框架支持对基于图像的AI代理进行更主动的审计与治理。


