蚂蚁灵波开源世界模型LingBot-World，支持10分钟长视频无损生成

发布时间：2026-01-29 05:01 雷峰网·人工智能

蚂蚁灵波科技继发布空间感知与VLA基座模型后，再次开源世界模型LingBot-World。该模型在视频生成质量、动态表现、长时一致性以及实时交互能力等关键指标上，均达到与Google Genie 3相媲美的水平。其核心目标是构建一个高保真、高动态且可实时操控的“数字演练场”，服务于具身智能、自动驾驶及游戏开发等前沿领域。

针对长视频生成中常见的“长时漂移”问题，LingBot-World通过创新的多阶段训练与并行化加速技术，实现了长达近10分钟的连续稳定无损生成。这为需要长序列、多步骤的复杂任务训练提供了关键支撑。在交互性能方面，模型实现了高帧率的生成吞吐，并将端到端交互延迟控制在极短的时间内，用户可通过键盘或鼠标实时操控角色与视角，获得即时画面反馈。此外，模型支持通过文本指令触发环境变化与世界事件，如调整天气或改变画面风格，并在保持场景几何关系相对一致的前提下完成这些变化。

LingBot-World具备优秀的Zero-shot泛化能力。仅需输入一张真实照片或游戏截图，即可直接生成可交互的视频流，无需针对特定场景进行额外训练或数据采集，这显著降低了在不同场景中的部署与应用成本。为解决世界模型训练数据匮乏的挑战，模型采用了混合数据采集策略，结合大规模网络视频清洗与游戏引擎合成管线，获取纯净画面并精确对齐操作指令，为模型理解“动作如何改变环境”提供了高质量训练信号。

对于具身智能的规模化落地而言，复杂长程任务的真机训练数据稀缺是一大瓶颈。LingBot-World凭借其长时序一致性、实时交互响应以及对动作-环境因果关系的理解，能够在数字世界中模拟物理世界，为智能体提供一个低成本、高保真的试错与训练空间。同时，其支持的场景多样化生成能力，也有助于提升相关算法在真实世界中的泛化性能。

随着“灵波”系列多款具身领域模型的连续发布，蚂蚁的AGI战略实现了从数字世界向物理感知的关键延伸。通过InclusionAI社区将模型全面开源，蚂蚁正与行业共同探索AGI的边界，一个深度融合开源开放并服务于真实场景的AGI生态正在加速形成。目前，LingBot-World的模型权重及推理代码已面向社区开放。

返回快讯列表