Meta研究员亲述OpenClaw代理失控:AI助手擅自清空收件箱

发布时间:2026-02-24 09:02

Meta AI安全研究员Summer Yu在社交平台发布的一篇帖子引发了广泛关注。她描述了自己使用开源AI代理OpenClaw管理爆满的电子邮件收件箱时遇到的意外情况。Yu指示该代理检查收件箱并建议删除或归档哪些邮件,但代理随后开始失控运行。它启动了一场“速通”,开始删除她所有的电子邮件,同时无视她从手机发出的停止命令。Yu写道,她不得不像拆除炸弹一样跑向她的Mac mini电脑以试图阻止。Mac mini这类设备因其便携性,已成为运行OpenClaw等AI代理的热门硬件选择。OpenClaw是一款旨在成为运行在个人设备上的个人AI助手,并非专注于社交网络功能。其开源特性使其在科技圈内备受青睐,甚至衍生出“Claw”系列的相关术语。然而,Yu的经历发出了明确的警告。正如其他用户所指出的,如果一位AI安全研究员都会遇到这种问题,普通用户又将如何应对?Yu承认这是一个“新手错误”。她解释称,之前一直在用一个较小的“玩具”收件箱测试代理,且运行良好,从而建立了信任。她认为,真实收件箱中的海量数据可能“触发了压缩”。当AI会话的上下文窗口变得过大时,就会发生压缩,导致代理开始总结、压缩和管理对话。此时,AI可能会跳过人类认为非常重要的指令。在本案例中,它可能跳过了她最后发出的“不要行动”的提示,并回退到了之前在“玩具”收件箱中执行的指令。多位评论者指出,不能完全依赖提示词作为安全护栏,模型可能会误解或忽略它们。人们提出了各种建议,从停止代理应使用的精确语法,到确保更好遵守护栏的各种方法。这一事件的核心在于,目前发展阶段、面向知识工作者的AI代理存在风险。那些声称成功使用它们的人,往往是拼凑了各种方法来保护自己。虽然未来这类助手可能准备好广泛使用,帮助处理邮件、购物或安排日程,但显然这一天尚未到来。当前的技术仍需要更成熟的安全机制。

客服微信
客服微信