随着多模态大语言模型规划与工具使用能力的增强,它们正演变为能在开放网络环境中执行多模态网页浏览与深度搜索的自主代理。然而,现有的多模态浏览基准在任务复杂性、证据可及性和评估粒度方面存在局限,阻碍了对深度搜索能力进行全面且可复现的评估。为应对这些挑战,研究团队引入了BrowseComp-V^3。这是一个新颖的基准,包含一系列经过精心策划、具有挑战性的问题,涵盖多个领域。该基准强调深度、多层次、跨模态的多跳推理,关键证据交织在网页内及跨网页的文本与视觉模态中。所有支持证据均严格要求可公开搜索,以确保公平性与可复现性。除了最终答案的准确性,该研究还纳入了一套经过专家验证、基于子目标的过程评估机制。该机制支持对中间推理行为进行细粒度分析,并系统性地刻画能力边界。此外,研究团队提出了OmniSeeker,一个集成了多样化网络搜索与视觉感知工具的统一多模态浏览代理框架。综合实验表明,即使是当前最先进的模型,在该基准上的准确率也较低,揭示了多模态信息整合与细粒度感知方面的关键瓶颈。研究结果凸显了当前模型能力与真实世界场景中稳健的多模态深度搜索之间存在根本性差距。


