微软研究揭示AI聊天机器人多轮对话可靠性骤降

发布时间:2026-02-20 23:02

一项由微软研究院与赛富时联合进行的研究证实,用户感觉AI聊天机器人在长对话中变“笨”的现象确实存在科学依据。研究揭示,即使是当前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet在内的多款顶尖模型进行了大量模拟对话分析,发现了一个被称为“迷失会话”的系统性缺陷。数据显示,这些模型在单次提示任务中成功率很高,但当任务被拆解成多轮自然对话后,成功率出现骤降。研究指出,模型的核心能力本身下降幅度有限,但其在多轮对话中的“不可靠性”却大幅飙升。这意味着AI模型虽然仍具备解决问题的能力,但在持续跟踪上下文方面变得高度不稳定。

报告分析认为,当前大多数模型主要在理想的“单轮”基准测试环境下进行评估,这与现实中渐进式、信息逐步补充的人类交流模式存在差异。研究发现,一旦任务被拆分到多个对话回合中,即便是最先进的模型也容易出现系统性失误。

研究进一步指出了导致性能下降的两个关键行为机制。首先是“过早生成”,即模型在用户未完整说明需求前就尝试给出最终答案,并在早期形成的错误假设基础上持续推理,导致错误放大。其次是“答案膨胀”,模型在多轮对话中的回复长度显著增加,更长的回答往往包含更多假设与不准确内容,这些内容被纳入后续对话上下文后,进一步影响了推理准确性。

值得注意的是,研究还发现,即使是配备了额外“思考词元”的新一代推理模型,也未能显著改善在多轮对话中的表现。一些常用于确保输出一致性的技术设置,对此类对话衰减的防护作用也相当有限。

这一发现对当前AI行业的评估方式提出了重要质疑,表明现有基准测试可能忽略了模型在真实世界对话中的行为表现。对于依赖AI构建复杂对话流程的开发者而言,这构成了严峻挑战。目前,最有效的应对策略之一是尽量减少多轮往返交流,尝试在单个完整提示中提供所有必要信息和指令,以提高输出的一致性。

客服微信
客服微信