StarWM:首个基于LLM的星际争霸II世界模型,提升策略精炼能力

发布时间:2026-02-22 20:01

大型语言模型(LLM)在复杂推理和泛化方面展现出强大能力,这促使研究者探索其在复杂环境中的决策应用。星际争霸II(SC2)因其庞大的状态-动作空间和部分可观测性,成为一个极具挑战性的测试平台。然而,现有的基于LLM的SC2智能体主要关注改进策略本身,而忽视了将可学习的、动作驱动的状态转移模型整合到决策循环中。

为了弥补这一空白,研究团队提出了StarWM,这是首个针对SC2、能够在部分可观测条件下预测未来观察的世界模型。为了便于学习SC2的混合动态,研究者引入了一种结构化的文本表示方法,将观察分解为五个语义模块,并构建了首个用于SC2动态预测的指令调优数据集SC2-Dynamics-50k。

团队进一步开发了一个用于评估预测结构化观察的多维离线评估框架。离线结果显示,StarWM相比零样本基线取得了显著提升,在资源预测准确性和己方宏观局势一致性等方面均有大幅改进。

最终,研究者提出了StarWM-Agent,这是一个由世界模型增强的决策系统。它将StarWM整合到一个“生成-模拟-精炼”的决策循环中,用于实现具有前瞻性的策略优化。在线评估表明,该系统在与SC2内置AI的对战中取得了持续的改进,在不同难度级别上均获得了显著的胜率提升,同时在宏观管理稳定性和战术风险评估方面也有所改善。

客服微信
客服微信