HERO系统：结合大视觉模型与模拟训练的人形机器人视觉操作新范式

发布时间：2026-02-19 11:01

针对人形机器人在复杂环境中对任意物体进行视觉移动操作的需求，现有基于真实世界模仿学习的方法因数据收集困难而泛化能力有限。本文提出了名为HERO的新范式，旨在结合大型视觉模型的强大泛化与开放词汇理解能力，以及模拟训练带来的优异控制性能。

HERO的核心是设计了一种精准的残差感知末端执行器跟踪策略。该策略融合了经典机器人学与机器学习方法，具体包含四个关键组成部分：利用逆运动学将残差末端执行器目标转换为参考轨迹；采用学习得到的神经正向运动学模型以实现精准的正向运动学计算；进行目标调整；以及实施重新规划。这些创新共同作用，显著降低了末端执行器的跟踪误差。

基于这一精准的末端执行器跟踪器，研究团队构建了一个用于移动操作的模块化系统。该系统利用开放词汇大型视觉模型实现强大的视觉泛化能力。实验表明，该系统能够在从办公室到咖啡店等多种真实世界环境中可靠运行，成功操作诸如杯子、苹果、玩具等各类日常物体，并适应不同高度的台面。在仿真与真实世界中进行的一系列模块化及端到端测试，均验证了所提设计的有效性。这项研究为人形机器人学习与日常物体交互开辟了新的训练途径。

返回快讯列表