EMPO^2:混合策略优化与记忆增强技术解决LLM智能体探索瓶颈

发布时间:2026-02-27 12:31

探索能力是强化学习训练大语言模型智能体的关键瓶颈。现有方法虽能利用预训练知识,但在需要发现新状态的环境中往往失效。为此,研究团队提出了探索性记忆增强型在线和离线策略优化框架。该框架通过引入记忆机制来增强探索,并融合在线与离线策略更新,旨在使大语言模型既能有效利用记忆获得优异表现,也能在不依赖记忆时保持稳健性。在ScienceWorld和WebShop等环境上的评估表明,该框架相比基线方法取得了显著性能提升。此外,在分布外测试中,该框架展现出对新任务的卓越适应能力,仅需少量结合记忆的尝试且无需参数更新。这些结果突显了该框架在构建更具探索性和泛化性的大语言模型智能体方面的潜力。该论文已被国际学习表征会议接收。

客服微信
客服微信