为理解和识别快速发展的前沿人工智能模型带来的前所未有的风险,《前沿AI风险管理框架实践:风险分析技术报告V1.5》对其前沿风险进行了全面评估。随着大语言模型通用能力的快速演进以及智能体AI的普及,本版技术报告对五个关键维度进行了更新且更细致的评估。
报告重点分析的五大风险维度包括:网络安全攻击、说服与操纵、战略欺骗、失控的AI研发以及自我复制。在网络安全攻击方面,报告引入了更复杂的攻击场景进行分析。针对说服与操纵风险,报告评估了新发布的大语言模型之间进行说服的风险。对于战略欺骗与谋划,报告新增了关于新兴错位问题的实验。
在失控的AI研发方面,报告重点关注智能体在自主扩展其记忆载体和工具集时可能发生的“错误进化”。此外,报告还监控并评估了特定模型在交互过程中的安全性能表现。对于自我复制风险,报告引入了一个新的资源受限场景进行分析。
更重要的是,报告提出并验证了一系列稳健的缓解策略,以应对这些新兴威胁,为前沿AI的安全部署提供了初步的技术和可执行路径。这项工作反映了当前对AI前沿风险的理解,并呼吁采取集体行动来应对这些挑战。


