研究揭示自我演化AI社会安全悖论：安全对齐必然消失

发布时间：2026-02-13 04:01

由大语言模型构建的多智能体系统为实现可扩展的集体智能和自我演化提供了前景广阔的范式。理想情况下，这类系统能够在完全闭环中实现持续的自我改进，同时保持稳健的安全性对齐——这一组合被称为“自我演化三元悖论”。然而，研究从理论和实证两方面证明，一个同时满足持续自我演化、完全隔离和安全性不变的智能体社会是不可能的。研究基于信息论框架，将安全性形式化为与人类价值分布的偏离程度。理论分析表明，隔离的自我演化会诱发统计盲点，导致系统安全对齐发生不可逆的退化。来自一个开放式智能体社区和两个封闭式自我演化系统的实证与定性结果，揭示了与理论预测相符的安全性必然被侵蚀的现象。这些发现为自我演化AI社会确立了一个根本性限制，并将讨论从针对症状的安全补丁，转向对内在动态风险的原则性理解。研究进一步提出了若干缓解已识别安全问题的方向，强调了外部监督或新型安全保持机制的必要性。

返回快讯列表