深度强化学习自然策略梯度的逆Fisher矩阵秩-1逼近方法

发布时间：2026-02-12 05:00 arXiv·cs.AI

自然梯度因其快速收敛特性和协变权重更新，在深度强化学习领域被长期研究。然而，计算自然梯度需要在每次迭代中求取Fisher信息矩阵的逆，这在计算上通常难以实现。

本文提出了一种高效且可扩展的自然策略优化技术，该方法利用秩-1逼近来近似完整的逆Fisher信息矩阵。理论分析表明，在特定条件下，对逆Fisher信息矩阵的秩-1逼近比策略梯度收敛更快，并且在某些条件下，其样本复杂度与随机策略梯度方法相当。

研究团队在多种不同的环境中对该方法进行了基准测试。实验结果显示，该方法在性能上超越了标准的行动者-评论家方法和信赖域基线方法。

这项研究为深度强化学习中自然梯度的计算提供了一种新的、更高效的近似解决方案，有助于推动相关算法在复杂任务中的应用。