REDSearcher框架：优化大语言模型长程搜索任务的可扩展低成本方案

发布时间：2026-02-17 11:31

随着大语言模型从通用知识引擎转向现实世界问题解决者，优化其在深度搜索任务中的性能仍面临挑战。核心瓶颈在于高质量搜索轨迹和奖励信号的极端稀疏性，这源于可扩展的长程任务构建的困难，以及涉及外部工具调用的高交互成本。

为应对这些挑战，研究团队提出了REDSearcher，这是一个统一框架，为可扩展的搜索代理优化协同设计了复杂任务合成、中期训练和后期训练。该框架主要包含以下改进：首先，将任务合成构建为双重约束优化问题，通过图拓扑和证据分散精确控制任务难度，从而可扩展地生成复杂、高质量的任务。其次，引入工具增强查询，鼓励主动使用工具而非被动回忆。

在中期训练阶段，框架显著加强了核心原子能力，包括知识、规划和函数调用，这大幅降低了为下游训练收集高质量轨迹的成本。此外，团队构建了一个本地模拟环境，为强化学习实验实现了快速、低成本的算法迭代。

在纯文本和多模态搜索代理基准测试中，该方法均取得了先进的性能。为促进未来对长程搜索代理的研究，团队计划发布相关资源，包括高质量的复杂文本搜索轨迹、多模态轨迹、强化学习查询集，以及代码和模型检查点。

返回快讯列表