微软研究揭示AI聊天机器人多轮对话可靠性骤降

发布时间：2026-02-20 23:02

一项由微软研究院与赛富时联合进行的研究证实，用户感觉AI聊天机器人在长对话中变“笨”的现象确实存在科学依据。研究揭示，即使是当前最先进的大语言模型，在多轮对话中的可靠性也会急剧下降。

研究人员对包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet在内的多款顶尖模型进行了大量模拟对话分析，发现了一个被称为“迷失会话”的系统性缺陷。数据显示，这些模型在单次提示任务中成功率很高，但当任务被拆解成多轮自然对话后，成功率出现骤降。研究指出，模型的核心能力本身下降幅度有限，但其在多轮对话中的“不可靠性”却大幅飙升。这意味着AI模型虽然仍具备解决问题的能力，但在持续跟踪上下文方面变得高度不稳定。

报告分析认为，当前大多数模型主要在理想的“单轮”基准测试环境下进行评估，这与现实中渐进式、信息逐步补充的人类交流模式存在差异。研究发现，一旦任务被拆分到多个对话回合中，即便是最先进的模型也容易出现系统性失误。

研究进一步指出了导致性能下降的两个关键行为机制。首先是“过早生成”，即模型在用户未完整说明需求前就尝试给出最终答案，并在早期形成的错误假设基础上持续推理，导致错误放大。其次是“答案膨胀”，模型在多轮对话中的回复长度显著增加，更长的回答往往包含更多假设与不准确内容，这些内容被纳入后续对话上下文后，进一步影响了推理准确性。

值得注意的是，研究还发现，即使是配备了额外“思考词元”的新一代推理模型，也未能显著改善在多轮对话中的表现。一些常用于确保输出一致性的技术设置，对此类对话衰减的防护作用也相当有限。

这一发现对当前AI行业的评估方式提出了重要质疑，表明现有基准测试可能忽略了模型在真实世界对话中的行为表现。对于依赖AI构建复杂对话流程的开发者而言，这构成了严峻挑战。目前，最有效的应对策略之一是尽量减少多轮往返交流，尝试在单个完整提示中提供所有必要信息和指令，以提高输出的一致性。

返回快讯列表