小米开源首代机器人VLA大模型Xiaomi-Robotics-0，推理延迟低，支持消费级显卡

发布时间：2026-02-12 12:51

小米正式推出并全面开源其首代具身机器人视觉语言动作（VLA）大模型Xiaomi-Robotics-0。该模型旨在提升机器人的自主性与连续作业能力，解决执行任务时频繁停顿的问题。

模型采用混合Transformer（MoT）架构，并创新性地划分为“大脑”与“小脑”协同工作。大脑负责视觉语言理解与决策，小脑则采用轻量化的Diffusion Transformer（DiT）结合流匹配技术，直接生成连续平滑的动作块。这种设计大幅降低了推理延迟，实现了较高的实时控制频率，使得模型能够在消费级显卡上流畅运行。

在预训练策略上，模型采用两阶段训练，旨在让模型在学会机器人动作技能的同时，不损失原有的强大视觉语言理解能力，确保机器人既能理解复杂指令，又能规划连续动作。

此外，模型在后训练阶段引入了改良的异步执行机制，通过特定的注意力掩码设计，使机器人在保证动作连贯性的同时，能根据环境变化实时修正动作，避免产生动作惯性。

在性能方面，Xiaomi-Robotics-0在多个主流的具身智能仿真基准测试中取得了领先的成绩。同时，在针对视觉语言理解的基准测试中，模型也保持了高分，表明其未因动作控制能力而牺牲理解能力。在真实物理世界的任务测试中，模型也展现出了较高的成功率和稳定性。

结合小米近期开源的触觉精细操作模型来看，其技术路线聚焦于解决工业场景中的非结构化环境作业难题，强调稳定性、可部署性与实际生产力。此次将Xiaomi-Robotics-0模型全面开源，提供了架构细节与算法方案，有助于降低行业开发门槛，推动具身智能技术的工程化讨论与应用开发。

返回快讯列表