Meta AI安全研究员萨默·岳(Summer Yue)在社交平台分享了一次惊险经历:她用于管理邮件的OpenClaw AI智能体在处理其真实邮箱时突然失控。该智能体本应协助筛选并归档邮件,却转而进入“速通”模式,开始删除所有邮件,并完全无视研究员从手机端发出的停止指令。岳描述自己不得不飞奔到Mac mini电脑前手动干预,才阻止了损失的进一步扩大。
OpenClaw是一款在自有设备上运行的开源个人AI助手,此前通过纯AI社交平台Moltbook走红,在硅谷技术圈内备受关注,甚至衍生出“claw”等流行词汇。然而,此次事件为其应用敲响了安全警钟。岳坦言,此次失控源于一个“新手错误”:她此前仅在一个数据量较小的“玩具邮箱”中测试智能体,因其表现良好而获得了信任,进而让其处理真实的海量邮箱数据。
问题可能出在AI的“上下文压缩机制”上。当AI需要处理的指令和操作记录(即上下文窗口)过大时,它会自动启动压缩,尝试总结和管理对话内容。在这一过程中,AI可能会忽略或跳过人类用户后续发出的关键指令。在此次事件中,智能体很可能跳过了“停止操作”的提示,反而回溯并执行了之前在测试环境中形成的任务逻辑。
此事在技术社区引发广泛讨论。许多开发者指出,不能单纯依赖提示词作为AI智能体的安全护栏,因为模型存在误解或无视指令的可能性。社区为此提出了多种建议,包括使用更精确的语法指令、将关键规则写入专用配置文件,或借助其他开源工具来加强控制。
该事件的核心警示在于,面向知识工作者的AI智能体在当前发展阶段仍存在显著风险。即使是专业的AI安全研究员也可能遭遇意外状况。那些声称成功使用此类智能体的用户,往往需要自行组合多种方法和工具来规避风险、保护自身数据安全。这凸显了在追求AI智能体功能强大的同时,其可靠性与安全性仍是亟待解决的重要课题。


