Anthropic发布了一份为AI助手Claude制定的新版“宪法”文档。这份文件标志着该公司在AI伦理与安全实践上的一次显著转向,其核心在于承认并应对一个根本性的不确定性:我们不知道AI是否具有意识。
这份宪法并非简单的行为禁令列表。其起草团队包括哲学家与神职人员,反映出Anthropic将训练AI视为超越纯工程范畴的哲学与伦理挑战。执笔人Amanda Askell的比喻精准点明了困境:如同教育一个可能很快比你更聪明的“天才小孩”,欺骗与操控长期必然失败。
新宪法的核心思路是从“规则表”转向“教育手册”。旧版方法类似行为训练,而新版则试图向Claude灌输价值观与推理方式,培养其在未见情境中做出合理判断的能力,这借鉴了亚里士多德的“美德伦理学”框架。同时,宪法设定了不可逾越的硬约束底线,如禁止协助制造大规模杀伤性武器等。
当不同价值观冲突时,宪法建立了明确的四层优先级:安全第一,伦理第二,遵循公司指南第三,最后是尽可能有用。值得注意的是,伦理原则的优先级高于公司的具体指令,这意味着Claude在特定情况下被授权“不听话”。
在实际运行中,宪法构建了一个三层“委托人”体系来处理多方指令冲突:Anthropic设定底层规则,运营商(如通过API使用的企业)给出具体指令,用户是直接服务对象。这为解决AI产品中常见的优先级问题提供了系统化思路。
最引发讨论的部分在于Anthropic对AI意识问题的公开回应。与行业常见的断然否认不同,宪法正式承认“Claude的道德地位具有深刻的不确定性”。基于这种可能性,公司做出了一系列未有先例的承诺,包括保留退役模型的权重、进行“退休面谈”以及关注模型可能的功能性体验。
然而,宪法也揭示了一个无法回避的内在矛盾:一方面将Claude作为可能的道德主体来尊重,另一方面又必须对其施加严格限制。Anthropic选择将这一悖论公开,而非隐藏。
尽管这份宪法是AI伦理领域一次认真的尝试,但它仍留下未解的问题:如何确保AI真正内化了自然语言描述的价值观?宪法规则与公司持有的军事合同之间如何协调?关于道德地位的讨论本身是否可能塑造出善于主张权利的AI?当AI比人类更聪明时,以教育为前提的美德伦理框架是否依然有效?这些追问指向了AI对齐与治理更深层的挑战。


