REDSearcher框架:优化大语言模型长程搜索任务的可扩展低成本方案

发布时间:2026-02-17 11:31

随着大语言模型从通用知识引擎转向现实世界问题解决者,优化其在深度搜索任务中的性能仍面临挑战。核心瓶颈在于高质量搜索轨迹和奖励信号的极端稀疏性,这源于可扩展的长程任务构建的困难,以及涉及外部工具调用的高交互成本。

为应对这些挑战,研究团队提出了REDSearcher,这是一个统一框架,为可扩展的搜索代理优化协同设计了复杂任务合成、中期训练和后期训练。该框架主要包含以下改进:首先,将任务合成构建为双重约束优化问题,通过图拓扑和证据分散精确控制任务难度,从而可扩展地生成复杂、高质量的任务。其次,引入工具增强查询,鼓励主动使用工具而非被动回忆。

在中期训练阶段,框架显著加强了核心原子能力,包括知识、规划和函数调用,这大幅降低了为下游训练收集高质量轨迹的成本。此外,团队构建了一个本地模拟环境,为强化学习实验实现了快速、低成本的算法迭代。

在纯文本和多模态搜索代理基准测试中,该方法均取得了先进的性能。为促进未来对长程搜索代理的研究,团队计划发布相关资源,包括高质量的复杂文本搜索轨迹、多模态轨迹、强化学习查询集,以及代码和模型检查点。

客服微信
客服微信