小米开源首代机器人VLA大模型Xiaomi-Robotics-0,推理延迟低,支持消费级显卡

发布时间:2026-02-12 12:51

小米正式推出并全面开源其首代具身机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0。该模型旨在提升机器人的自主性与连续作业能力,解决执行任务时频繁停顿的问题。

模型采用混合Transformer(MoT)架构,并创新性地划分为“大脑”与“小脑”协同工作。大脑负责视觉语言理解与决策,小脑则采用轻量化的Diffusion Transformer(DiT)结合流匹配技术,直接生成连续平滑的动作块。这种设计大幅降低了推理延迟,实现了较高的实时控制频率,使得模型能够在消费级显卡上流畅运行。

在预训练策略上,模型采用两阶段训练,旨在让模型在学会机器人动作技能的同时,不损失原有的强大视觉语言理解能力,确保机器人既能理解复杂指令,又能规划连续动作。

此外,模型在后训练阶段引入了改良的异步执行机制,通过特定的注意力掩码设计,使机器人在保证动作连贯性的同时,能根据环境变化实时修正动作,避免产生动作惯性。

在性能方面,Xiaomi-Robotics-0在多个主流的具身智能仿真基准测试中取得了领先的成绩。同时,在针对视觉语言理解的基准测试中,模型也保持了高分,表明其未因动作控制能力而牺牲理解能力。在真实物理世界的任务测试中,模型也展现出了较高的成功率和稳定性。

结合小米近期开源的触觉精细操作模型来看,其技术路线聚焦于解决工业场景中的非结构化环境作业难题,强调稳定性、可部署性与实际生产力。此次将Xiaomi-Robotics-0模型全面开源,提供了架构细节与算法方案,有助于降低行业开发门槛,推动具身智能技术的工程化讨论与应用开发。

客服微信
客服微信