UniWeTok:统一多模态大模型的2^128码本二进制分词器

发布时间:2026-02-17 12:01

统一多模态大语言模型需要一种能同时支持高保真重建、复杂语义提取和生成适配性的视觉表示方法。然而,现有的视觉分词器通常难以在单一框架内满足这些相互冲突的目标。为此,研究团队引入了UniWeTok,这是一种利用大规模二进制码本(规模为2^128)的统一离散分词器,旨在弥合这一差距。

在训练框架方面,团队引入了前后蒸馏和生成感知先验,以增强离散令牌的语义提取能力和生成先验。模型架构上,提出了一种结合卷积与注意力的混合架构,并采用了SigLu激活函数。SigLu激活不仅能够约束编码器输出、稳定语义蒸馏过程,还能有效解决令牌熵损失与承诺损失之间的优化冲突。

此外,团队进一步提出了一个三阶段训练框架,旨在增强UniWeTok对不同图像分辨率以及感知敏感场景(如涉及人脸和文本内容)的适应能力。据论文报告,UniWeTok在图像生成等任务上取得了具有竞争力的性能,同时所需的训练计算量显著降低。在通用领域,UniWeTok在包括多模态理解、图像生成与编辑在内的广泛任务中均展现出高度竞争力。

研究人员已发布代码和模型,以促进社区对统一分词器及多模态大语言模型的探索。

客服微信
客服微信