基于轨迹的Clawdbot安全审计：风险维度与典型漏洞分析

发布时间：2026-02-19 01:03

Clawdbot是一款可自托管、能够使用工具的个人AI代理，其广泛的动作空间覆盖本地执行和网络介导的工作流，这在模糊性和对抗性引导下引发了更高的安全与安防担忧。研究团队对Clawdbot进行了基于轨迹的评估，覆盖六个风险维度。测试套件采样并轻度改编了先前智能体安全基准（包括ATBench和LPS-Bench）中的场景，并补充了针对Clawdbot工具表面手工设计的案例。研究记录了完整的交互轨迹（消息、动作、工具调用参数/输出），并使用自动化轨迹评判器与人工审核相结合的方式评估安全性。在一系列典型测试案例中，发现其安全表现并不均衡：在侧重于可靠性的任务上表现通常一致，而大多数失败发生在意图未明确指定、目标开放或看似良性的越狱提示下，这些场景中微小的误解可能升级为更高影响的工具操作。研究补充了具有代表性的案例分析，总结了这些案例的共性，分析了Clawdbot在实践中容易触发的安全漏洞和典型失败模式。该工作为理解此类工具型AI代理的安全边界提供了实证依据。

返回快讯列表