一项新研究指出,用户查询的语言形式本身,是影响大语言模型产生“幻觉”倾向的关键因素之一。研究团队从古典语言学理论出发,构建了一个包含22个维度的查询特征向量,用以量化分析查询的语言复杂性。这些特征涵盖了从句复杂度、词汇稀有度、指代、否定、可回答性以及意图明确性等多个方面,这些因素均已知会影响人类的理解过程。
研究基于大量真实世界查询进行了大规模分析,旨在探究是否存在某些特定类型的查询更容易引发模型的幻觉。分析结果揭示了一个一致的“风险图谱”:某些查询特征,例如过深的从句嵌套和指代不明,与模型产生更高幻觉倾向显著相关。相反,意图表达清晰、问题具备可回答性的查询,则与较低的幻觉率相关联。
此外,研究还发现,其他一些特征(如领域特异性)的影响较为复杂,其效果可能因具体的数据集和模型而异。这项工作的意义在于,首次建立了一个与幻觉风险 empirically 相关的、可观测的查询特征表示体系。这一发现为未来进行有针对性的查询改写以降低风险,以及开展进一步的干预性研究铺平了道路。该研究强调了在评估和改进大语言模型时,关注输入查询质量的重要性。


