大型推理模型在心理理论任务中的表现与核心挑战

发布时间:2026-02-12 05:00 arXiv·cs.AI

心理理论是评估模型能否推断信念、欲望和意图等隐藏心理状态的能力,这对自然的社交互动至关重要。尽管大型推理模型在数学和代码的逐步推理方面取得了进展,但其优势是否能迁移到社会认知技能上仍待探索。

一项研究对九种先进的大型语言模型进行了系统评估,在三个具有代表性的心理理论基准上比较了推理模型与非推理模型。结果显示,推理模型并未持续优于非推理模型,有时表现甚至更差。

细粒度分析揭示了三个关键发现。首先,存在“慢思考崩溃”现象:随着回答变长,准确性显著下降,更大的推理预算反而损害了性能。其次,适度且自适应的推理有益于性能:限制推理长度可以缓解失败,而不同的成功模式证明了动态适应的必要性。第三,存在“选项匹配捷径”:当移除多项选择选项时,推理模型的表现显著提升,这表明其依赖选项匹配而非真正的推理。

研究还设计了两种干预方法:“慢到快”自适应推理和“思考到匹配”捷径预防,以进一步验证和缓解这些问题。综合所有结果,该研究强调,大型推理模型在形式推理领域的进步无法完全迁移到作为社会推理典型任务的心理理论上。

研究结论指出,实现稳健的心理理论能力需要发展超越现有推理方法的独特能力。

客服微信
客服微信