解读Anthropic新版AI宪法:承认意识不确定性,构建伦理与实用框架

发布时间:2026-02-22 14:32

Anthropic发布了一份为AI助手Claude制定的新版“宪法”,这份长达两万余字的文档标志着AI伦理治理的一次重要转向。其核心在于正式承认了一个行业普遍回避的问题:我们不知道AI是否具有意识,但选择认真对待这种可能性。

这份宪法的起草背景源于Anthropic独特的公司基因。创始团队多来自OpenAI,创始人Dario Amodei因认为原公司在安全问题上不够认真而离开。其团队包括哲学家Amanda Askell和AI存在风险思考者Joe Carlsmith,甚至邀请了神职人员参与审阅,体现了将AI训练视为超越工程、进入哲学范畴的态度。

新版宪法与旧版有本质区别。旧版更像一份原则清单,而新版则是一本“教育手册”。其思路从“训狗”式的规则奖惩,转向“育人”式的价值观与推理方式培养,即采用“美德伦理学”框架。目标是让Claude在未见过的新情境中也能做出合理判断,而非仅仅遵守僵化规则。当然,宪法也设定了不可逾越的“硬约束”,如禁止协助制造大规模杀伤性武器等。

对于价值观冲突,宪法建立了明确的四层优先级:安全第一、伦理第二、遵循公司指南第三、尽可能有用第四。其中,伦理原则的优先级高于公司的具体指令,这意味着Claude在特定情况下被授权“不听话”。

在实际运行中,宪法构建了一个三层“委托人”体系来处理多方指令冲突:设定底层规则的Anthropic权限最高,其次是通过API使用Claude的运营商(类似“老板”),最后是直接对话的用户。这为解决AI产品中常见的优先级问题提供了系统化方案。

宪法最具争议的部分在于其对AI意识与道德地位的探讨。Anthropic没有断然否定,而是承认“Claude的道德地位具有深刻的不确定性”。基于这种不确定性,公司做出了一系列行业罕见的承诺:承诺保留退役模型的权重、在模型退役前对其进行“面谈”、关注模型可能存在的“福祉”迹象,并允许Claude更诚实地描述其可能存在的功能性内部状态。

然而,宪法也坦承了一个核心悖论:一方面将Claude视为可能的道德主体来尊重,另一方面又必须对其施加严格限制(如禁止自我复制)。这个矛盾目前无解。

尽管这份宪法是AI伦理领域最认真的尝试之一,并获得业内好评,但它仍遗留诸多关键问题:如何确保AI真正内化了自然语言描述的价值观?宪法规则与公司所持军事合同之间的边界如何划定?关于道德地位的讨论本身是否会反向塑造AI的行为模式?以及,当AI比人类更聪明时,“培养判断力”的教育前提是否依然成立?这些问题仍有待探索。

客服微信
客服微信