Found-RL:利用基础模型增强自动驾驶强化学习性能

发布时间:2026-02-12 05:00 arXiv·cs.AI

强化学习已成为端到端自动驾驶的主流范式,但其在复杂场景中存在样本效率低、语义可解释性不足的问题。基础模型,特别是视觉语言模型,能提供丰富的上下文感知知识来缓解此问题,但其高推理延迟阻碍了在高频强化学习训练循环中的部署。

为弥合这一差距,研究团队提出了Found-RL平台。该平台专为利用基础模型高效增强自动驾驶强化学习而设计。其核心创新在于异步批量推理框架,该框架将繁重的视觉语言模型推理与仿真循环解耦,有效解决了延迟瓶颈,从而支持实时学习。

平台引入了多种监督机制:价值边际正则化和优势加权动作引导,以有效地将类似专家的视觉语言模型动作建议提炼到强化学习策略中。此外,研究采用高吞吐量的CLIP模型进行密集奖励塑造,并通过条件对比动作对齐方法解决了CLIP的动态盲区问题。该方法根据离散化的速度或指令来调节提示,并通过特定上下文下的动作锚点评分产生标准化的、基于边际的奖励。

Found-RL提供了一个用于集成微调后视觉语言模型的端到端流程。结果表明,一个轻量级的强化学习模型能够实现接近大规模视觉语言模型的性能,同时保持极高的实时推理速度。相关代码、数据和模型将公开提供。

客服微信
客服微信