HERO系统:结合大视觉模型与模拟训练的人形机器人视觉操作新范式

发布时间:2026-02-19 11:01

针对人形机器人在复杂环境中对任意物体进行视觉移动操作的需求,现有基于真实世界模仿学习的方法因数据收集困难而泛化能力有限。本文提出了名为HERO的新范式,旨在结合大型视觉模型的强大泛化与开放词汇理解能力,以及模拟训练带来的优异控制性能。

HERO的核心是设计了一种精准的残差感知末端执行器跟踪策略。该策略融合了经典机器人学与机器学习方法,具体包含四个关键组成部分:利用逆运动学将残差末端执行器目标转换为参考轨迹;采用学习得到的神经正向运动学模型以实现精准的正向运动学计算;进行目标调整;以及实施重新规划。这些创新共同作用,显著降低了末端执行器的跟踪误差。

基于这一精准的末端执行器跟踪器,研究团队构建了一个用于移动操作的模块化系统。该系统利用开放词汇大型视觉模型实现强大的视觉泛化能力。实验表明,该系统能够在从办公室到咖啡店等多种真实世界环境中可靠运行,成功操作诸如杯子、苹果、玩具等各类日常物体,并适应不同高度的台面。在仿真与真实世界中进行的一系列模块化及端到端测试,均验证了所提设计的有效性。这项研究为人形机器人学习与日常物体交互开辟了新的训练途径。

客服微信
客服微信