一项新研究提出了关于大型语言模型的“真实性谱系假说”。该假说认为,在模型的表征空间中,存在一个从广泛领域通用到狭窄领域特定的真实性方向谱系。为了验证这一假说,研究团队系统性地评估了线性探针在多种真实性类型上的泛化能力,包括定义性、经验性、逻辑性、虚构性和伦理性真实,同时也考察了谄媚性说谎和期望反转性说谎等行为。
研究发现,线性探针在大多数领域之间表现出良好的泛化性能,但在处理谄媚性说谎和期望反转性说谎时却遭遇失败。然而,当在所有领域上联合训练时,探针恢复了强大的性能,这证实了尽管成对领域间的迁移效果不佳,但领域通用的方向确实存在。探针方向之间的几何关系(马氏余弦相似度)近乎完美地预测了跨领域泛化能力。
通过概念擦除方法,研究进一步分离出三种类型的真实性方向:领域通用的、领域特定的,以及仅在特定领域子集之间共享的。因果干预实验揭示,领域特定的方向比领域通用的方向能更有效地引导模型的输出。
此外,研究还发现后训练过程重塑了真实性的几何结构,特别是将谄媚性说谎的表征推离了其他真实性类型,这为聊天模型所表现出的谄媚倾向提供了一个可能的表征基础。综合来看,这些结果支持了真实性谱系假说,即不同通用程度的真实性方向共存于表征空间中,并且后训练会重塑它们的几何关系。


