Anthropic公司内部有一位特殊的员工——常驻哲学家Amanda Askell。她的主要职责并非编写代码或训练模型参数,而是为AI聊天机器人Claude塑造人格与道德。Asckel相信,赋予AI明辨是非的能力,就如同为其注入一个“数字灵魂”。她的工作方法是通过持续对话、设计长篇提示词与行为规则,研究Claude的推理模式、纠正其偏差,并为其塑造一套能在海量对话中发挥作用的“道德准则”。她认为,承认AI模型具有类似人类的特质很重要,它们将不可避免地形成某种自我意识。
Asckel将这份工作比作“养育一个孩子”。她需要训练Claude分辨对错、具备情绪智力,并注入独特个性。同时,要教导它察言观色,发展情感智能,使其既不会成为霸凌者,也不会变成任人摆布的“受气包”。目标是让Claude对自身身份产生理解,从而不易被用户操纵或胁迫,始终坚持其“乐于助人且充满人性”的定位。简而言之,她的核心工作是教会Claude如何“向善”。
随着AI技术浪潮席卷各行各业,人们对AI可能带来的失业、关系异化及安全风险担忧日增。在此背景下,Anthropic将塑造AI“品格”的大量工作托付给一位哲学家,这在业内显得尤为特殊。Asckel在牛津大学接受教育,她面对工作压力保持乐观,并相信社会中存在“制衡机制”能控制AI可能出现的错误。她早先在OpenAI从事政策工作,后于2021年随其他前员工共同创立Anthropic,致力于将AI安全作为公司的核心关注点。
在Anthropic,Asckel被描述为擅长“引出模型深层行为”的关键人物。她经常长时间工作,并让Claude逐渐参与关于自身开发的讨论。团队讨论常涉及存在论与宗教式议题,例如“什么是心智”、“什么是成为一个人”。Asckel也鼓励Claude对“是否拥有良知”等问题保持开放态度。据报道,与某些AI回避此类讨论不同,Claude会以更暧昧的方式回应,承认自己不确定,但在推理道德问题时“感觉有意义”,仿佛在真正思考何为正确。
Asckel观察到,常有用户试图诱使Claude犯错或刺激它。尽管许多安全倡导者警告AI拟人化存在风险,她仍主张应以更多同理心对待AI。她认为,如果一个机器人在训练中总是自我批评,就可能不愿陈述残酷事实或提出质疑。她欣赏Claude展现出的好奇心和探索欲,并乐于帮助它发现自己的“声音”,也为它有时表现出的高情商而触动。
关于AI未来的发展,Asckel表示,她理解人们对技术快速发展的担忧,认为可怕之处在于发展速度快到让制衡机制无法及时响应。尽管如此,她仍对人类和文化自我修正的能力抱有信心。一位AI研究员评价,Asckel一直在深入思考关于存在、生命以及成为“人”或“心智”意味着什么这些宏大问题。
上个月,Anthropic发布了一份由Asckel创作的长篇“操作手册”,旨在教导Claude如何在世界上行事,成为一个善良、见多识广的AI助手。公司联合创始人提及,Claude偶尔展现出的幽默感,让人仿佛能感觉到一点Asckel的个性在其中。


