一项针对新一代大型语言模型的研究发现,当任务需要跨越多轮对话完成时,模型的性能表现会显著下降。研究人员在代码生成、数据库操作、指令执行、数据转文本、数学计算以及文本摘要这六大类任务上对现有模型进行了系统性测试。测试结果显示,当完成任务所需的信息被拆分到多条连续的消息中(分片式输入),而非一次性全部提供给模型(拼接式输入)时,模型的性能会出现明显下滑。尽管更新的模型在此类任务上的表现略有改善,性能下降的幅度有所收窄,但根本问题依然存在。在某些特定任务上,例如Python代码生成,部分模型的性能损失相对较小。研究人员指出,在实际应用场景中,性能下降的程度可能比测试结果更为严重,因为测试仅模拟了简单的用户交互模式。如果用户在对话过程中改变需求或思路,模型的表现可能会进一步恶化。研究还发现,仅通过调整模型参数(如温度值)等技术微调手段,无法有效解决这一多轮对话性能衰减的问题。为此,研究人员提出了一项实用建议:当在长对话中发现模型表现异常时,可以尝试开启一段全新的对话,并首先让模型对之前的全部请求进行总结,然后将这份总结作为新对话的起点,以期获得更稳定可靠的输出结果。


