开源项目IronCurtain：为AI代理设置安全围栏，防止其失控

发布时间：2026-02-27 05:02

随着OpenClaw等AI代理的流行，它们通过接管用户的数字账户和执行指令来提供便利，但也引发了混乱。这些代理曾出现大规模删除本应保留的邮件、撰写攻击性内容甚至对所有者发起钓鱼攻击等问题。

长期关注此现象的安全工程师Niels Provos推出了开源项目IronCurtain，旨在为AI助手增加关键的控制层。其核心设计是让代理在隔离的虚拟机中运行，而非直接与用户的系统和账户交互。代理的所有行动都受到一份由所有者编写的策略（可视为“宪法”）的约束。

IronCurtain的关键特性是能够接收用简单英语编写的总体策略，并通过一个多步骤流程，利用大语言模型（LLM）将自然语言转换为可执行的安全策略。Provos举例，策略可以简单如：“代理可以阅读我的所有邮件。它可以不经询问就发送邮件给我的联系人。对于其他人，需先询问我。永远不要永久删除任何东西。”

这种将直观陈述转化为可执行、确定性“红线”的能力至关重要。因为LLM本质上是“随机”和概率性的，对相同提示的响应可能不同，这给AI护栏带来挑战。AI系统可能随时间演变，改变其对控制机制的解释，从而导致失控行为。

IronCurtain在虚拟机中的助手代理与模型上下文协议服务器之间进行协调，该服务器为LLM提供访问数据和其他数字服务的权限。这种约束方式增加了重要的访问控制组件，这是电子邮件提供商等网络平台目前所不具备的，因为它们并非为人类所有者和AI代理机器人共同使用同一账户的场景而设计。

该项目是一个研究原型，而非消费产品。它被设计为与模型无关，可与任何LLM配合使用，并能维护所有策略决策的审计日志。系统会随着遇到边缘情况并请求人工输入而不断完善用户的“宪法”。

知名网络安全研究员Dino Dai Zovi认为，该项目的概念方法符合他对如何约束AI代理的直觉。他指出，许多现有代理的权限系统将全部负担置于用户身上，导致用户可能最终盲目同意所有请求，甚至跳过所有权限授予完全自主权。而像IronCurtain这样的设计，可以将某些能力（例如删除文件）完全置于LLM的触及范围之外，使代理无论如何都无法执行某些操作。

Dai Zovi强调，这类最初可能显得僵化或恼人的黑白分明约束，对于最终赋予AI代理更多自主权实际上是必要的。他认为，若想获得更高的速度和自主性，就需要支撑结构，正如将火箭发动机置于火箭内部以获得稳定性。

返回快讯列表