OneVision-Encoder:基于编解码器对齐稀疏性的多模态智能新架构

发布时间:2026-02-16 14:35

研究人员提出核心假设:通用人工智能本质上是一个压缩问题。高效压缩需要架构与数据本质结构对齐。然而,现代视觉架构已偏离这一原则:视觉信号高度冗余,而判别信息稀疏。现有模型均匀处理密集像素网格,将大量计算浪费在静态背景上,而非聚焦于定义运动和意义的预测残差。

为解决视觉理解问题,必须使架构与视频的信息论原则(即编解码器)对齐。OneVision-Encoder通过将预测性视觉结构压缩为语义来编码视频。它采用编解码器分块化,放弃均匀计算,专注于信号熵丰富的区域。为在非规则令牌布局下统一空间与时间推理,模型采用共享3D RoPE,并通过大规模聚类判别目标进行训练,联合捕获物体持久性与运动动态。

结果验证了核心假设:效率与精度并非权衡关系,而是正相关。当集成到大型语言模型中时,尽管使用更少的视觉令牌和预训练数据,OneVision-Encoder在多项图像、视频和文档理解基准测试中,持续优于Qwen3-ViT、SigLIP2等强视觉骨干网络。特别是在视频理解任务上,模型取得了显著的平均性能提升。研究表明,编解码器对齐的块级稀疏性是一个基础性原则,使OneVision-Encoder能够作为下一代通用视觉模型的可扩展引擎。

客服微信
客服微信