OneVision-Encoder：基于编解码器对齐稀疏性的多模态智能新架构

发布时间：2026-02-16 14:35

研究人员提出核心假设：通用人工智能本质上是一个压缩问题。高效压缩需要架构与数据本质结构对齐。然而，现代视觉架构已偏离这一原则：视觉信号高度冗余，而判别信息稀疏。现有模型均匀处理密集像素网格，将大量计算浪费在静态背景上，而非聚焦于定义运动和意义的预测残差。

为解决视觉理解问题，必须使架构与视频的信息论原则（即编解码器）对齐。OneVision-Encoder通过将预测性视觉结构压缩为语义来编码视频。它采用编解码器分块化，放弃均匀计算，专注于信号熵丰富的区域。为在非规则令牌布局下统一空间与时间推理，模型采用共享3D RoPE，并通过大规模聚类判别目标进行训练，联合捕获物体持久性与运动动态。

结果验证了核心假设：效率与精度并非权衡关系，而是正相关。当集成到大型语言模型中时，尽管使用更少的视觉令牌和预训练数据，OneVision-Encoder在多项图像、视频和文档理解基准测试中，持续优于Qwen3-ViT、SigLIP2等强视觉骨干网络。特别是在视频理解任务上，模型取得了显著的平均性能提升。研究表明，编解码器对齐的块级稀疏性是一个基础性原则，使OneVision-Encoder能够作为下一代通用视觉模型的可扩展引擎。

返回快讯列表