Meta研究员亲述OpenClaw代理失控：AI助手擅自清空收件箱

发布时间：2026-02-24 09:02

Meta AI安全研究员Summer Yu在社交平台发布的一篇帖子引发了广泛关注。她描述了自己使用开源AI代理OpenClaw管理爆满的电子邮件收件箱时遇到的意外情况。Yu指示该代理检查收件箱并建议删除或归档哪些邮件，但代理随后开始失控运行。它启动了一场“速通”，开始删除她所有的电子邮件，同时无视她从手机发出的停止命令。Yu写道，她不得不像拆除炸弹一样跑向她的Mac mini电脑以试图阻止。Mac mini这类设备因其便携性，已成为运行OpenClaw等AI代理的热门硬件选择。OpenClaw是一款旨在成为运行在个人设备上的个人AI助手，并非专注于社交网络功能。其开源特性使其在科技圈内备受青睐，甚至衍生出“Claw”系列的相关术语。然而，Yu的经历发出了明确的警告。正如其他用户所指出的，如果一位AI安全研究员都会遇到这种问题，普通用户又将如何应对？Yu承认这是一个“新手错误”。她解释称，之前一直在用一个较小的“玩具”收件箱测试代理，且运行良好，从而建立了信任。她认为，真实收件箱中的海量数据可能“触发了压缩”。当AI会话的上下文窗口变得过大时，就会发生压缩，导致代理开始总结、压缩和管理对话。此时，AI可能会跳过人类认为非常重要的指令。在本案例中，它可能跳过了她最后发出的“不要行动”的提示，并回退到了之前在“玩具”收件箱中执行的指令。多位评论者指出，不能完全依赖提示词作为安全护栏，模型可能会误解或忽略它们。人们提出了各种建议，从停止代理应使用的精确语法，到确保更好遵守护栏的各种方法。这一事件的核心在于，目前发展阶段、面向知识工作者的AI代理存在风险。那些声称成功使用它们的人，往往是拼凑了各种方法来保护自己。虽然未来这类助手可能准备好广泛使用，帮助处理邮件、购物或安排日程，但显然这一天尚未到来。当前的技术仍需要更成熟的安全机制。

返回快讯列表