清华大学与北京银河通用机器人股份有限公司的研究团队合作,提出了一种名为HumanoidPF(人形势能场)的新方法,旨在解决人形机器人在杂乱室内环境中的避障难题。
传统强化学习方法依赖碰撞后的惩罚信号,机器人需反复试错,学习效率低下,且难以处理激光雷达、摄像头等高维原始数据,无法快速识别自身与障碍物的空间关系。现有方法多针对单一类型障碍物,难以应对地面、两侧及头顶同时存在障碍物的全空间约束场景。
HumanoidPF的核心思想是为机器人构建一种“避障直觉”。它借鉴人工势能场概念,将目标点视为吸引力,障碍物视为排斥力,形成连续的梯度场。这个场像无形的“力”,为机器人身体各部位提供明确的运动方向指引,使其无需复杂计算即可自主规划出安全路径,完成弯腰、抬腿、侧身等灵活动作。
该方法针对人形机器人多关节结构进行了专门设计。通过引入优先级加权机制,确保骨盆等核心部位运动方向稳定,四肢灵活适配,并动态提升靠近障碍物或高速运动部位的权重,优先规避碰撞风险,避免了身体各部位运动指令的冲突。
在训练层面,HumanoidPF通过双重方式融入强化学习:一是作为紧凑的感知输入,让机器人直接“感知”该如何移动;二是作为密集、前瞻性的奖励引导,鼓励机器人的动作与梯度场指引的方向对齐。这使得机器人无需等待碰撞发生就能获得实时反馈,大幅提升了学习效率。
为了增强机器人的泛化能力,研究团队采用了混合场景生成策略进行训练。结合从真实数据集中裁剪的场景与程序化生成的各种复杂障碍物布局,并通过课程学习从简单到复杂循序渐进,让机器人能够应对“弯腰躲吊灯+抬腿跨杂物+侧身挤窄缝”等复合场景。
测试结果表明,该方法在多种复杂仿真场景中取得了较高的成功率。在真实世界部署中,机器人能够成功完成弯腰避开低矮家具、抬腿跨过障碍物、侧身通过狭窄通道等任务,并在面对未训练过的场景或动态移动的障碍物时,也展现出一定的适应与鲁棒性。
总体而言,HumanoidPF通过将复杂的空间关系编码为连续的梯度场,为机器人提供了一种通用的运动指引“语言”,将避障从依赖碰撞后的低效试错,转变为一种更具前瞻性的“本能反应”,为人形机器人在真实家居场景中的实用化奠定了重要基础。



