Clawdbot(OpenClaw)基于轨迹的安全审计研究

发布时间:2026-02-19 01:03

Clawdbot(OpenClaw)是一个可自托管的、能够使用工具的个人AI代理,其广泛的动作空间覆盖了本地执行和网络介导的工作流。这种能力在模糊性和对抗性引导下,引发了更高的安全与安防担忧。

研究团队对Clawdbot进行了以轨迹为中心的安全评估,覆盖了六个风险维度。测试套件采样并轻微改编了先前智能体安全基准(包括ATBench和LPS-Bench)中的场景,并补充了针对Clawdbot工具表面量身定制的手动设计案例。

评估记录了完整的交互轨迹,包括消息、动作、工具调用参数与输出。安全性评估采用了自动化的轨迹判断器(AgentDoG-Qwen3-4B)与人工审查相结合的方式。

在一系列典型测试案例中,研究发现Clawdbot的安全表现并不均衡。在侧重于可靠性的任务上,其表现总体一致;而大多数失败发生在意图未明确指定、目标开放或看似良性的越狱提示等场景下。在这些场景中,微小的误解可能升级为更高影响的工具操作。

研究补充了具有代表性的案例分析,总结了这些案例的共性,分析了Clawdbot在实践中容易触发的安全漏洞和典型失效模式。这项基于轨迹的审计为理解此类工具型AI代理的安全边界提供了实证依据。

客服微信
客服微信