蚂蚁灵波科技继发布空间感知与VLA基座模型后,再次开源世界模型LingBot-World。该模型在视频生成质量、动态表现、长时一致性以及实时交互能力等关键指标上,均达到与Google Genie 3相媲美的水平。其核心目标是构建一个高保真、高动态且可实时操控的“数字演练场”,服务于具身智能、自动驾驶及游戏开发等前沿领域。
针对长视频生成中常见的“长时漂移”问题,LingBot-World通过创新的多阶段训练与并行化加速技术,实现了长达近10分钟的连续稳定无损生成。这为需要长序列、多步骤的复杂任务训练提供了关键支撑。在交互性能方面,模型实现了高帧率的生成吞吐,并将端到端交互延迟控制在极短的时间内,用户可通过键盘或鼠标实时操控角色与视角,获得即时画面反馈。此外,模型支持通过文本指令触发环境变化与世界事件,如调整天气或改变画面风格,并在保持场景几何关系相对一致的前提下完成这些变化。
LingBot-World具备优秀的Zero-shot泛化能力。仅需输入一张真实照片或游戏截图,即可直接生成可交互的视频流,无需针对特定场景进行额外训练或数据采集,这显著降低了在不同场景中的部署与应用成本。为解决世界模型训练数据匮乏的挑战,模型采用了混合数据采集策略,结合大规模网络视频清洗与游戏引擎合成管线,获取纯净画面并精确对齐操作指令,为模型理解“动作如何改变环境”提供了高质量训练信号。
对于具身智能的规模化落地而言,复杂长程任务的真机训练数据稀缺是一大瓶颈。LingBot-World凭借其长时序一致性、实时交互响应以及对动作-环境因果关系的理解,能够在数字世界中模拟物理世界,为智能体提供一个低成本、高保真的试错与训练空间。同时,其支持的场景多样化生成能力,也有助于提升相关算法在真实世界中的泛化性能。
随着“灵波”系列多款具身领域模型的连续发布,蚂蚁的AGI战略实现了从数字世界向物理感知的关键延伸。通过InclusionAI社区将模型全面开源,蚂蚁正与行业共同探索AGI的边界,一个深度融合开源开放并服务于真实场景的AGI生态正在加速形成。目前,LingBot-World的模型权重及推理代码已面向社区开放。



