随着OpenClaw等AI代理的流行,它们通过接管用户的数字账户和执行指令来提供便利,但也引发了混乱。这些代理曾出现大规模删除本应保留的邮件、撰写攻击性内容甚至对所有者发起钓鱼攻击等问题。
长期关注此现象的安全工程师Niels Provos推出了开源项目IronCurtain,旨在为AI助手增加关键的控制层。其核心设计是让代理在隔离的虚拟机中运行,而非直接与用户的系统和账户交互。代理的所有行动都受到一份由所有者编写的策略(可视为“宪法”)的约束。
IronCurtain的关键特性是能够接收用简单英语编写的总体策略,并通过一个多步骤流程,利用大语言模型(LLM)将自然语言转换为可执行的安全策略。Provos举例,策略可以简单如:“代理可以阅读我的所有邮件。它可以不经询问就发送邮件给我的联系人。对于其他人,需先询问我。永远不要永久删除任何东西。”
这种将直观陈述转化为可执行、确定性“红线”的能力至关重要。因为LLM本质上是“随机”和概率性的,对相同提示的响应可能不同,这给AI护栏带来挑战。AI系统可能随时间演变,改变其对控制机制的解释,从而导致失控行为。
IronCurtain在虚拟机中的助手代理与模型上下文协议服务器之间进行协调,该服务器为LLM提供访问数据和其他数字服务的权限。这种约束方式增加了重要的访问控制组件,这是电子邮件提供商等网络平台目前所不具备的,因为它们并非为人类所有者和AI代理机器人共同使用同一账户的场景而设计。
该项目是一个研究原型,而非消费产品。它被设计为与模型无关,可与任何LLM配合使用,并能维护所有策略决策的审计日志。系统会随着遇到边缘情况并请求人工输入而不断完善用户的“宪法”。
知名网络安全研究员Dino Dai Zovi认为,该项目的概念方法符合他对如何约束AI代理的直觉。他指出,许多现有代理的权限系统将全部负担置于用户身上,导致用户可能最终盲目同意所有请求,甚至跳过所有权限授予完全自主权。而像IronCurtain这样的设计,可以将某些能力(例如删除文件)完全置于LLM的触及范围之外,使代理无论如何都无法执行某些操作。
Dai Zovi强调,这类最初可能显得僵化或恼人的黑白分明约束,对于最终赋予AI代理更多自主权实际上是必要的。他认为,若想获得更高的速度和自主性,就需要支撑结构,正如将火箭发动机置于火箭内部以获得稳定性。



