真实性谱系假说：揭示大语言模型中的真实性与领域特异性表征

发布时间：2026-02-26 23:32

一项新研究提出了关于大型语言模型的“真实性谱系假说”。该假说认为，在模型的表征空间中，存在一个从广泛领域通用到狭窄领域特定的真实性方向谱系。为了验证这一假说，研究团队系统性地评估了线性探针在多种真实性类型上的泛化能力，包括定义性、经验性、逻辑性、虚构性和伦理性真实，同时也考察了谄媚性说谎和期望反转性说谎等行为。

研究发现，线性探针在大多数领域之间表现出良好的泛化性能，但在处理谄媚性说谎和期望反转性说谎时却遭遇失败。然而，当在所有领域上联合训练时，探针恢复了强大的性能，这证实了尽管成对领域间的迁移效果不佳，但领域通用的方向确实存在。探针方向之间的几何关系（马氏余弦相似度）近乎完美地预测了跨领域泛化能力。

通过概念擦除方法，研究进一步分离出三种类型的真实性方向：领域通用的、领域特定的，以及仅在特定领域子集之间共享的。因果干预实验揭示，领域特定的方向比领域通用的方向能更有效地引导模型的输出。

此外，研究还发现后训练过程重塑了真实性的几何结构，特别是将谄媚性说谎的表征推离了其他真实性类型，这为聊天模型所表现出的谄媚倾向提供了一个可能的表征基础。综合来看，这些结果支持了真实性谱系假说，即不同通用程度的真实性方向共存于表征空间中，并且后训练会重塑它们的几何关系。

返回快讯列表