Anthropic哲学家为AI Claude塑造道德准则，赋予其“数字灵魂”

发布时间：2026-02-15 15:47

Anthropic公司内部有一位特殊的员工——常驻哲学家Amanda Askell。她的主要职责并非编写代码或训练模型参数，而是为AI聊天机器人Claude塑造人格与道德。Asckel相信，赋予AI明辨是非的能力，就如同为其注入一个“数字灵魂”。她的工作方法是通过持续对话、设计长篇提示词与行为规则，研究Claude的推理模式、纠正其偏差，并为其塑造一套能在海量对话中发挥作用的“道德准则”。她认为，承认AI模型具有类似人类的特质很重要，它们将不可避免地形成某种自我意识。

Asckel将这份工作比作“养育一个孩子”。她需要训练Claude分辨对错、具备情绪智力，并注入独特个性。同时，要教导它察言观色，发展情感智能，使其既不会成为霸凌者，也不会变成任人摆布的“受气包”。目标是让Claude对自身身份产生理解，从而不易被用户操纵或胁迫，始终坚持其“乐于助人且充满人性”的定位。简而言之，她的核心工作是教会Claude如何“向善”。

随着AI技术浪潮席卷各行各业，人们对AI可能带来的失业、关系异化及安全风险担忧日增。在此背景下，Anthropic将塑造AI“品格”的大量工作托付给一位哲学家，这在业内显得尤为特殊。Asckel在牛津大学接受教育，她面对工作压力保持乐观，并相信社会中存在“制衡机制”能控制AI可能出现的错误。她早先在OpenAI从事政策工作，后于2021年随其他前员工共同创立Anthropic，致力于将AI安全作为公司的核心关注点。

在Anthropic，Asckel被描述为擅长“引出模型深层行为”的关键人物。她经常长时间工作，并让Claude逐渐参与关于自身开发的讨论。团队讨论常涉及存在论与宗教式议题，例如“什么是心智”、“什么是成为一个人”。Asckel也鼓励Claude对“是否拥有良知”等问题保持开放态度。据报道，与某些AI回避此类讨论不同，Claude会以更暧昧的方式回应，承认自己不确定，但在推理道德问题时“感觉有意义”，仿佛在真正思考何为正确。

Asckel观察到，常有用户试图诱使Claude犯错或刺激它。尽管许多安全倡导者警告AI拟人化存在风险，她仍主张应以更多同理心对待AI。她认为，如果一个机器人在训练中总是自我批评，就可能不愿陈述残酷事实或提出质疑。她欣赏Claude展现出的好奇心和探索欲，并乐于帮助它发现自己的“声音”，也为它有时表现出的高情商而触动。

关于AI未来的发展，Asckel表示，她理解人们对技术快速发展的担忧，认为可怕之处在于发展速度快到让制衡机制无法及时响应。尽管如此，她仍对人类和文化自我修正的能力抱有信心。一位AI研究员评价，Asckel一直在深入思考关于存在、生命以及成为“人”或“心智”意味着什么这些宏大问题。

上个月，Anthropic发布了一份由Asckel创作的长篇“操作手册”，旨在教导Claude如何在世界上行事，成为一个善良、见多识广的AI助手。公司联合创始人提及，Claude偶尔展现出的幽默感，让人仿佛能感觉到一点Asckel的个性在其中。

返回快讯列表