GigaBrain-0.5M*：基于世界模型强化学习的视觉语言动作模型

发布时间：2026-02-13 03:01

视觉语言动作模型在直接根据当前观察预测多步动作时，常受限于场景理解不足和未来预测能力薄弱。相比之下，基于海量视频数据预训练的视频世界模型展现出强大的时空推理和精准的未来预测能力，这为增强VLA学习提供了理想基础。

为此，研究团队提出了GigaBrain-0.5M*模型。该模型基于已在大量机器人操作数据上预训练的GigaBrain-0.5构建，并通过名为RAMP的世界模型化强化学习框架进行训练，以实现强大的跨任务适应能力。

实证结果表明，RAMP方法相较于RECAP基线取得了显著的性能提升，在包括衣物折叠、装箱和咖啡制作等一系列具有挑战性的任务上表现优异。关键的是，GigaBrain-0.5M*展现出可靠的长时程执行能力，能够持续完成复杂的操作任务。该模型在真实世界部署视频中得到了验证。

这项研究由GigaBrain团队完成，相关论文已提交至预印本平台。该方法为克服传统VLA模型的固有局限，提升机器人在动态环境中的自主操作能力提供了新的技术路径。