LLM驱动AlphaEvolve自动发现多智能体强化学习新算法

发布时间:2026-02-20 13:31

在多智能体强化学习领域,特别是在不完全信息博弈中,算法进步长期依赖人工迭代改进基线方法。尽管反事实遗憾最小化和策略空间响应预言机等基础算法族有坚实的理论基础,但其最有效变体的设计往往需要人类直觉在庞大的算法设计空间中探索。

本研究提出使用AlphaEvolve,一种由大型语言模型驱动的进化编码代理,来自动发现新的多智能体学习算法。该框架的通用性通过为两种不同的博弈论学习范式演化新变体得到验证。

首先,在迭代遗憾最小化领域,研究演化控制遗憾积累和策略推导的逻辑,发现了一种新算法——波动自适应折扣CFR。该算法采用新颖、非直观的机制,包括对波动敏感的折扣、一致性增强的乐观主义以及硬性热启动策略积累计划,其性能超越了当前先进的基线方法。

其次,在基于群体的训练算法体系中,研究为策略空间响应预言机演化训练时和评估时的元策略求解器,发现了一种新变体——平滑混合乐观遗憾PSRO。该变体引入了一种混合元求解器,将乐观遗憾匹配与基于最佳纯策略的平滑温度控制分布进行线性混合。通过在训练期间动态退火该混合因子和多样性奖励,算法实现了从群体多样性到严格均衡寻找的自动过渡,与标准的静态元求解器相比,展现出更优的经验收敛性。

这项工作展示了利用大型语言模型自动化算法发现流程的潜力,为多智能体学习算法的设计开辟了新途径。

客服微信
客服微信