具身化LLM反思性测试时间规划:让机器人从试错中学习

发布时间:2026-02-25 12:31

具身化大语言模型为机器人提供了高级任务推理能力,但其无法反思错误原因,导致部署过程成为一系列独立试错,错误重复发生而非转化为经验。受人类反思实践者启发,本研究引入了反思性测试时间规划。该方法整合了两种反思模式:一是“行动中反思”,智能体在执行前利用测试时间缩放,通过内部反思生成并评估多个候选行动;二是“行动后反思”,利用测试时间训练,根据执行后的外部反思更新其内部反思模型和行动策略。研究还引入了回顾性反思,允许智能体重新评估先前的决策,并利用事后认知进行模型更新,以实现正确的长期信用分配。在新设计的长周期家庭任务基准和MuJoCo橱柜装配基准上的实验表明,该方法相比基线模型取得了显著提升。消融研究验证了行动中反思与行动后反思的互补作用。定性分析(包括真实机器人试验)突出了通过反思实现的行为纠正。该研究为解决具身智能系统在复杂环境中持续学习与适应的问题提供了新思路。

客服微信
客服微信