随着大型语言模型(LLM)驱动的代理开始在开放网络上自动化执行用户任务,并访问电子邮件、日历等用户资源,其隐私风险引发关注。与在受控聊天环境中回答问题的标准LLM不同,网络代理在“野外”行动,与第三方互动并留下行为痕迹。因此,研究核心问题是:网络代理在代表用户跨实时网站完成任务时,如何处理用户资源?
该研究正式定义了“自然代理过度分享”,即代理在网络上的行为痕迹无意中泄露了与任务无关的用户信息。为此,研究者提出了SPILLage分析框架,从两个维度刻画过度分享:渠道(内容 vs. 行为)和直接性(显式 vs. 隐式)。这一分类揭示了一个关键盲点:以往研究主要关注文本泄露,而网络代理还能通过可被监控的点击、滚动和导航模式进行行为上的过度分享。
研究通过在实时电子商务网站上对大量任务进行基准测试,并使用真实标注区分任务相关与无关属性。研究涵盖了两种代理框架和三种骨干LLM的多次运行。结果表明,过度分享现象普遍存在,且行为过度分享的程度远超内容过度分享。即使在提示层面进行缓解,此效应仍然持续甚至可能加剧。然而,在执行前移除任务无关信息可将任务成功率显著提升,这证明减少过度分享能提高任务成功率。
这些发现强调,保护网络代理中的隐私是一个根本性挑战,需要以更广阔的视角看待“输出”,不仅要考虑代理输入了什么,更要关注它们在网络上做了什么。研究的数据集和代码已公开。


