UniWeTok：统一多模态大模型的2^128码本二进制分词器

发布时间：2026-02-17 12:01

统一多模态大语言模型需要一种能同时支持高保真重建、复杂语义提取和生成适配性的视觉表示方法。然而，现有的视觉分词器通常难以在单一框架内满足这些相互冲突的目标。为此，研究团队引入了UniWeTok，这是一种利用大规模二进制码本（规模为2^128）的统一离散分词器，旨在弥合这一差距。

在训练框架方面，团队引入了前后蒸馏和生成感知先验，以增强离散令牌的语义提取能力和生成先验。模型架构上，提出了一种结合卷积与注意力的混合架构，并采用了SigLu激活函数。SigLu激活不仅能够约束编码器输出、稳定语义蒸馏过程，还能有效解决令牌熵损失与承诺损失之间的优化冲突。

此外，团队进一步提出了一个三阶段训练框架，旨在增强UniWeTok对不同图像分辨率以及感知敏感场景（如涉及人脸和文本内容）的适应能力。据论文报告，UniWeTok在图像生成等任务上取得了具有竞争力的性能，同时所需的训练计算量显著降低。在通用领域，UniWeTok在包括多模态理解、图像生成与编辑在内的广泛任务中均展现出高度竞争力。

研究人员已发布代码和模型，以促进社区对统一分词器及多模态大语言模型的探索。

返回快讯列表