Anthropic发布了其首份AI智能体行为实测报告,通过对Claude Code及公共API上数百万次交互的隐私保护分析,首次系统揭示了AI智能体在实际部署中的使用模式、自主程度与风险分布。
报告显示,软件工程相关活动占据了所有智能体调用量的近一半,表明该领域是目前AI智能体应用最成熟的场景。与此同时,医疗、金融和网络安全等高价值垂直领域虽已出现新兴应用,但整体渗透率仍然极低,处于发展早期阶段。
研究发现,Claude Code的自主运行能力显著增强,其单次连续自主运行的最长时长在观察期内大幅增长。经验丰富的用户更倾向于采用“全自动模式”,让智能体自主完成任务,仅在必要时介入。相比之下,新用户启用全自动模式的比例较低,但随着使用次数增加,该比例显著上升。
在风险与监督方面,研究指出,大多数通过公共API执行的操作风险较低且可逆。模型自身也会主动限制其自主性,在复杂任务中,因不确定而暂停请求澄清的次数远高于人类主动打断的次数,这构成了重要的内置监督机制。报告也承认其局限性,包括数据来源单一等。
基于这些发现,Anthropic向开发者与政策制定者提出建议,包括投资部署后监控、训练模型识别自身不确定性、设计支持用户有效监督的工具,并避免过早强制规定具体的交互模式。


