大语言模型引导多智能体强化学习系统研究

发布时间：2026-02-12 05:00 arXiv·cs.AI

在复杂的多智能体环境中，多智能体强化学习系统面临高效学习与实现理想行为的重大挑战。本研究探索了将MARL与大语言模型介导的干预相结合，以引导智能体朝向更理想行为的潜力。具体而言，我们研究了如何利用LLM来解读和促进干预，从而塑造多个智能体的学习轨迹。

研究实验了两种类型的干预控制器：自然语言控制器和规则控制器。规则控制器显示出比自然语言控制器更强的影响效果，后者使用一个较小规模的LLM来模拟类人干预。研究发现，智能体尤其受益于早期干预，这能带来更高效的训练和更高的性能表现。

两种干预类型均优于无干预的基线方法，突显了LLM介导的引导在加速训练和提升MARL在挑战性环境中性能方面的潜力。这项工作为结合大型语言模型的语义理解能力与多智能体系统的学习优化提供了新的思路。