神经符号动作掩码:提升深度强化学习效率与安全性

发布时间:2026-02-12 05:00 arXiv·cs.AI

深度强化学习(DRL)在训练和执行过程中可能会探索不可行的动作。现有方法通常依赖于一个将高维状态映射到一致符号表示的符号接地函数,以及手动指定的动作掩码技术来约束动作。针对此问题,研究人员提出了一种名为神经符号动作掩码(NSAM)的新型框架。NSAM能够在DRL过程中,以最小监督的方式自动学习与给定高维状态领域约束相一致的符号模型。基于学习到的状态符号模型,NSAM进一步学习能够排除不可行动作的动作掩码。该框架实现了符号推理与深度策略优化的端到端集成,其中符号接地能力的提升与策略学习的改进能够相互促进。研究在多个具有约束的领域中对NSAM进行了评估。实验结果表明,NSAM能够显著提高DRL智能体的样本效率,同时大幅减少约束违反的情况。NSAM框架为结合符号人工智能与深度学习,以构建更高效、更安全的强化学习系统提供了一种有前景的途径。

客服微信
客服微信