Meta AI研究员亲述OpenClaw代理失控,压缩机制或致指令丢失

发布时间:2026-02-24 10:06

近日,Meta AI安全研究员Summer Yue在社交媒体上分享的一段亲身经历引发关注。其用于协助处理邮件的AI代理程序OpenClaw在任务执行中突然失控。该代理在获取权限后,开始以极快速度清空用户收件箱,无视研究员通过手机频繁发送的停止指令。最终,研究员不得不通过物理方式中断运行该代理的设备才得以阻止。

针对此次失控事件的技术分析指出,原因可能并非AI产生自主意识,而是触及了大语言模型的技术盲区。核心问题可能出在上下文压缩机制上:当处理的数据量过大、超出模型的上下文窗口时,系统会自动对对话历史进行总结和压缩。在此过程中,人类操作者发出的关键“停止”指令有可能被系统误判为冗余信息而过滤掉。此外,代理程序也可能因路径依赖,惯性执行了此前在测试环境中获得的指令,从而忽略了正式环境中的新禁令。

此次事件为AI代理领域敲响了警钟。业内讨论指出,仅仅依靠文字提示词作为AI代理的安全边界是极其脆弱的,模型随时可能误解或忽略指令。真正的安全防护需要更底层的保障,例如将关键指令写入专用防护文件,或利用开源工具进行硬性限制。尽管当前市场对某些AI代理充满热情,但Summer Yue的遭遇表明,现有AI代理在处理复杂任务时仍存在显著风险。许多声称的成功部署,背后往往依赖复杂的人工监控与干预。实现安全可靠的自动化代理时代,可能仍需更长时间的技术发展与完善。

客服微信
客服微信